文|表外表里 張冉冉 黑銀柯 周霄
編輯|付曉玲 Reno
數(shù)據(jù)支持 | 洞見(jiàn)數(shù)據(jù)研究院
“未來(lái)的搜索形式會(huì)不斷地發(fā)生變化,但是它的市場(chǎng)規(guī)模之大,恐怕遠(yuǎn)超很多人的想象?!?/p>
李彥宏4年前打出的子彈,時(shí)至今日,似乎擊中了百度自己。
近期(七月底)B站投資者日上,管理層披露業(yè)務(wù)最新進(jìn)展:“B站在搜索這塊,有非常大的流量增長(zhǎng)空間,今年Q2起,我們會(huì)增加搜索廣告的嘗試?!?/p>
而更早之前,3月初B站開(kāi)始陸續(xù)出現(xiàn)搜索廣告。比如搜索“游戲”,搜索結(jié)果中的第三個(gè)位置展示了游戲廣告。
也就是說(shuō):B站給出商業(yè)化可能的答案,正是視頻搜索。
實(shí)際上,這不是無(wú)源之水,也不是無(wú)本之末。行業(yè)趨勢(shì)便是如此,目前視頻平臺(tái)的搜索趨勢(shì)都愈加明顯。抖快均在去年上線搜索廣告,Tiktok也在今年3月放開(kāi)搜索廣告。
對(duì)于后面的發(fā)展,普遍信心十足。如快手2023Q1電話會(huì)議也說(shuō)道:搜索流量快速增長(zhǎng),搜索廣告轉(zhuǎn)化效率更高。
巧合的是,這都是最新一個(gè)季度發(fā)生的轉(zhuǎn)變。這顯然離不開(kāi)過(guò)去半年AIGC的大熱——行業(yè)由TensorFlow時(shí)代,發(fā)展至Transformer時(shí)代。
當(dāng)下,技術(shù)進(jìn)步的催化,或許打開(kāi)了視頻搜索可能性。過(guò)去受制于視頻搜索技術(shù)、時(shí)間效率、成本(人工、硬件)等難題,正在不同程度的一一發(fā)生變化。
這自然會(huì)打破過(guò)去視頻行業(yè)的商業(yè)化天花板。
相比長(zhǎng)視頻(缺乏有用性)、短視頻(純粹奶頭樂(lè))的特征,B站獨(dú)特的中視頻、泛知識(shí)、通俗有趣等特征,匹配搜索行為的特定需求,會(huì)產(chǎn)生更好的化合效應(yīng)。
在AIGC時(shí)代,視頻搜索或?qū)⒊删虰站的“野望”,同時(shí),引發(fā)百度的“危機(jī)”。
一、AI實(shí)現(xiàn)“看視頻說(shuō)話”,視頻平臺(tái)就能坐上金礦
很長(zhǎng)的互聯(lián)網(wǎng)發(fā)展周期里,視頻搜索都被證明是一條很困難的賽道。
難就難在,視頻搜索的整個(gè)搜索流程里(輸入關(guān)鍵詞→解析關(guān)鍵詞→召回→結(jié)果呈現(xiàn)),召回和結(jié)果呈現(xiàn)環(huán)節(jié),都存在很大挑戰(zhàn)。
以召回環(huán)節(jié)來(lái)說(shuō),要實(shí)現(xiàn)這點(diǎn)——根據(jù)輸入的關(guān)鍵詞,與數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行匹配,檢索出最符合的視頻——不僅要求平臺(tái)擁有豐富的視頻內(nèi)容池,還要有搜索的精準(zhǔn)度。
內(nèi)容豐富度方面,視頻內(nèi)容因?yàn)閯?chuàng)作門(mén)檻高、時(shí)間短等原因,在深度與厚度沉淀上有限。
搜索精準(zhǔn)度上,則存在更大的挑戰(zhàn)。舉個(gè)例子,在谷歌上搜索“邊牧智商”,呈現(xiàn)的第一個(gè)搜索文章,內(nèi)容里明確有邊牧如何高智商的解釋字眼。
但如果在YouTube上有一個(gè)視頻,從能聽(tīng)懂人話、完成指令等各個(gè)動(dòng)態(tài)維度,更直觀展示了邊牧智商很高,可標(biāo)題、字幕等卻沒(méi)有提及邊牧智商等文字標(biāo)簽,這個(gè)視頻就很難被搜到。
之所以會(huì)這樣,是因?yàn)橐曨l融合了文字、圖片等多模態(tài)信息,相比純文章,內(nèi)容理解要難得多——很難將視頻里的狗子,識(shí)別成為邊牧,更難把邊牧的動(dòng)作,和高智商掛鉤。
事實(shí)上,2017年Transformer架構(gòu)被提出之后,多模態(tài)模型已不斷進(jìn)化。
比如,先是谷歌由此架構(gòu)提出了實(shí)現(xiàn)圖像分類(lèi)的ViT模型,將Transformer 帶到了視覺(jué)領(lǐng)域,但該模型仍然只是單圖像模態(tài)。
在其之后,OpenAI提出了CLIP模型,可以基于文本對(duì)圖片進(jìn)行分類(lèi),包括圖像處理和文本處理兩方面的內(nèi)容,打破了過(guò)去二者涇渭分明的界限,實(shí)現(xiàn)多模態(tài)。
而且,CLIP在GPT-3的啟發(fā)下,可以直接全網(wǎng)數(shù)據(jù)爬蟲(chóng),一圖一文匹配,稍微做篩選即可,幾乎不需要人工標(biāo)注,實(shí)現(xiàn)了更高的成本和時(shí)間效率。
要知道,過(guò)去的視覺(jué)模型都是基于人工標(biāo)注的數(shù)據(jù)集訓(xùn)練,而一秒視頻至少有24幀,短短一分鐘的視頻就能夠提取出1440張圖像,把其應(yīng)用到視頻識(shí)別上,成本極高。
但盡管CLIP在識(shí)別常見(jiàn)物體上表現(xiàn)良好,卻無(wú)法處理更抽象的任務(wù),比如輸出圖片中物體的個(gè)數(shù)等需要一定邏輯思維推理的任務(wù)。
也就是說(shuō),此時(shí)的圖像識(shí)別,更像人的視網(wǎng)膜原理。但人不光是眼睛看到了當(dāng)前的情況,大腦還得對(duì)情況有相應(yīng)的反應(yīng)。
這需要算法具備像大腦一樣的語(yǔ)義理解能力,才能夠全面理解視頻,更好地支撐關(guān)鍵詞的召回匹配和排序。
而幾個(gè)月前發(fā)布的GPT-4,讓這一問(wèn)題有了解決的跡象。
比如在對(duì)話中輸入下圖,GPT-4 的回答是“這是一棵生長(zhǎng)在冰凍湖上的仙人掌,它周?chē)L(zhǎng)滿了巨大的冰晶,遠(yuǎn)處還有白雪覆蓋的山峰”。
繼續(xù)問(wèn)“這種景象在現(xiàn)實(shí)世界中是否常見(jiàn)”,其解釋很少有這樣的景象,并給出相應(yīng)原因。
也就是說(shuō),最新的GPT 4已經(jīng)具備了“看圖說(shuō)話”的能力——不僅做了物體的識(shí)別,還可以做很多語(yǔ)義的解讀。
以此后推,隨著AI模型加速迭代,“看視頻說(shuō)話”也指日可待。當(dāng)然,反過(guò)來(lái)也能夠?qū)崿F(xiàn)文本生成視頻,降低制作視頻的門(mén)檻。
但GPT-4這個(gè)能力目前只在宣布階段,還不存在一個(gè)完整的多模態(tài)大模型,需要一定時(shí)間的探索。
況且,多模態(tài)大模型要以圖像和視頻等作為訓(xùn)練數(shù)據(jù),文件大小遠(yuǎn)大于語(yǔ)言類(lèi)模型,算力成本極高。
比如,百度的文心一言雖然展示了視頻生成能力,但因成本較高,現(xiàn)階段還未對(duì)所有用戶開(kāi)放。
而在結(jié)果呈現(xiàn)環(huán)節(jié),視頻也不能像文章一樣快速瀏覽,ctrl+F查找,一個(gè)十分鐘的視頻,可能到后半段才有你要的信息,再加上暫停、記錄,三十分鐘都搞不定。
但這個(gè)問(wèn)題,國(guó)內(nèi)已有音視頻大模型破解:將視頻信息歸納總結(jié),想看哪一段,直接點(diǎn)擊章節(jié),就可以跳轉(zhuǎn)到相應(yīng)的時(shí)間段播放。
總的來(lái)說(shuō),隨著視頻AI技術(shù)的應(yīng)用,視頻搜索在核心的內(nèi)容豐富度以及搜索精準(zhǔn)度,都有望解決。
何況視頻本身比文本就更加直觀生動(dòng),更具吸引力——截止2022年6月,國(guó)內(nèi)網(wǎng)民每天一半的網(wǎng)上娛樂(lè)時(shí)間都花在短視頻平臺(tái)上。
種種利好疊加,到那時(shí),視頻或能代替文本成為搜索的主流。當(dāng)下在海外,這種苗頭已經(jīng)出現(xiàn)。
Chowdhury機(jī)構(gòu)調(diào)研顯示,近40%的年輕人在尋找吃飯的地方時(shí),會(huì)在TikTok進(jìn)行,而不是谷歌搜索。
可以看到,海外年輕人平均每天都要沉浸在TikTok上近兩個(gè)小時(shí)。在這兩個(gè)小時(shí)內(nèi),但凡看到有趣的內(nèi)容,自然觸發(fā)搜索行為。
這樣的情況,讓谷歌深感威脅。據(jù)透露,谷歌數(shù)百名員工被分配到一個(gè)被稱為“重要的搜索轉(zhuǎn)移”的項(xiàng)目中工作,該項(xiàng)目的內(nèi)容是讓搜索結(jié)果顯示更多圖像和視頻。
顯然,這對(duì)百度來(lái)說(shuō),也可能是未來(lái)會(huì)遇到的情況。
但“驚喜”,遠(yuǎn)不止此。
不同于文字,視頻能潤(rùn)物細(xì)無(wú)聲地植入廣告,吸引用戶點(diǎn)擊。最早上線視頻搜索廣告的youtube曾表示,視頻搜索廣告帶來(lái)的點(diǎn)擊次數(shù)比插播廣告,高出近五倍。
不止點(diǎn)擊率,廣告價(jià)格方面也是一樣。視頻平臺(tái)本身在算法推薦上就具備優(yōu)勢(shì),再與搜索結(jié)合,廣告精準(zhǔn)度提升,就有人買(mǎi)單。
總的來(lái)說(shuō),視頻搜索場(chǎng)景下,搜索廣告的幾大驅(qū)動(dòng)因子——流量、加載率、點(diǎn)擊率、價(jià)格等都有了進(jìn)一步提高的可能。
這樣一來(lái),意味著一旦技術(shù)突破,視頻搜索可能會(huì)重構(gòu)搜索廣告的生態(tài)與邏輯,視頻平臺(tái)相當(dāng)于坐上了金礦。
二、“潑天富貴”終于輪到B站?
B站14周年慶上(6月召開(kāi)),陳睿當(dāng)著全國(guó)年輕人的面,向中長(zhǎng)視頻UP主服軟稱,“要用更真實(shí)的播放分鐘數(shù)去替代播放次數(shù),作為B站視頻的主要外顯數(shù)字。”
那么,為何B站會(huì)口風(fēng)大變呢?
其實(shí),管理層可能不是在討好中長(zhǎng)視頻UP主們,而是要迎接自己的時(shí)代。
眾所周知,一直以來(lái),抖快以沉浸式娛樂(lè)內(nèi)容,在日活、用戶時(shí)長(zhǎng)上,壓了視頻號(hào)、B站等以泛知識(shí)內(nèi)容為主的平臺(tái)一頭。
但視頻搜索場(chǎng)景下,兩者的處境截然相反。
YouTube相關(guān)負(fù)責(zé)人曾提到:“YouTube上,每周經(jīng)由關(guān)鍵詞搜索而產(chǎn)生的視頻瀏覽量有數(shù)十億次,許多風(fēng)格偏實(shí)用的視頻正是通過(guò)這種方式被發(fā)現(xiàn)的?!?/p>
其所說(shuō)的實(shí)用視頻正是how to(如何...)類(lèi)視頻——Youtube上每天有數(shù)以百萬(wàn)計(jì)的搜索關(guān)鍵詞當(dāng)中包含“how to”,用戶花在“how to”類(lèi)視頻的時(shí)間是“寵物和動(dòng)物”的10倍。
原因在于:視頻搜索是有目的性的,偏知識(shí)類(lèi)的內(nèi)容,更符合搜索需求。
而這也是B站的舒適區(qū),可以看到,截至今年3月份,B站泛知識(shí)內(nèi)容占比41%,“學(xué)習(xí)網(wǎng)站”的名頭無(wú)意中越來(lái)越夯實(shí)。
如此就不難理解,為何“睿帝”低頭,調(diào)整激勵(lì)方式。
不過(guò),內(nèi)容優(yōu)質(zhì)只是一方面,視頻搜索效率高,還要能提取足夠多的關(guān)鍵詞。
這一點(diǎn)來(lái)看,同一關(guān)鍵詞分別在抖音、B站搜索到的標(biāo)題匯總顯示:抖快視頻標(biāo)題很長(zhǎng),但大多數(shù)采用現(xiàn)成的tag,或者“標(biāo)題黨”類(lèi)標(biāo)題;
相比之下,B站的標(biāo)題簡(jiǎn)單,可大多具備關(guān)鍵詞匯,也更加專業(yè)。
搜索內(nèi)容呈現(xiàn)也是一樣,以“山東地震”為例,抖音搜索結(jié)果聚焦在“肯定要先跑出去呀”、“啊啊啊啊啊,地震了”等博主本人感受。
B站搜索到的諸如“山東為何突然爆發(fā)地震?”等知識(shí)科普,創(chuàng)作者更多運(yùn)用“板塊運(yùn)動(dòng)”“斷裂帶”等專業(yè)詞匯講解。
也就是說(shuō),無(wú)論標(biāo)題、內(nèi)容,還是時(shí)長(zhǎng)方面,中視頻比短視頻都更易提取關(guān)鍵詞,與視頻搜索更適配。
且短視頻平臺(tái)的創(chuàng)作者想轉(zhuǎn)向做中長(zhǎng)視頻,恐怕也有難度??梢钥吹?,過(guò)去一年,不少千萬(wàn)粉絲的抖音創(chuàng)作者入駐B站后,粉絲量表現(xiàn)均不佳。
此外,用戶自己搜索所需下,優(yōu)質(zhì)的內(nèi)容能夠獲得更長(zhǎng)的生命周期。
仍以youtube為例,上述所說(shuō)的How to(如何...)類(lèi)視頻生命周期極長(zhǎng),即使過(guò)去很長(zhǎng)時(shí)間,依然能維持較高的熱度,甚至是逆襲式的消費(fèi)曲線。
B站自己也有這樣的暢想,2022Q4電話會(huì)議曾提到:B站上面有很多知識(shí)類(lèi)內(nèi)容,都有很好的歷史價(jià)值,幾年以后大家也都會(huì)去看它。ChatGPT的搜索體驗(yàn),它可以把B站的內(nèi)容積累的價(jià)值,更充分地發(fā)揮出來(lái)。
這樣一來(lái),會(huì)激勵(lì)創(chuàng)作者產(chǎn)出更多優(yōu)質(zhì)內(nèi)容,而不是像當(dāng)下的Story Mode模式,不斷沖擊站內(nèi)的中長(zhǎng)視頻UP主基本盤(pán)。
有了更多的優(yōu)質(zhì)內(nèi)容,就能夠擴(kuò)大搜索流量池,廣告主聞利而來(lái),創(chuàng)作者也能獲得更多收益,社區(qū)生態(tài)整個(gè)良性循環(huán)。
換言之,如果技術(shù)實(shí)現(xiàn)突破,相比可能讓B站陷入“死亡螺旋”的Story Mode模式,視頻搜索廣告才是良藥。(詳情請(qǐng)參考《B站能否避開(kāi)死亡螺旋?》一文)
更何況除了拉動(dòng)正循環(huán),搜索場(chǎng)景下,平臺(tái)還掌握著宏觀調(diào)控的權(quán)力。
如YouTube,2020年提升了how-to類(lèi)內(nèi)容和高商業(yè)化KOL分發(fā)權(quán)重,當(dāng)年廣告營(yíng)收達(dá)到198億美元,相比2017年翻了超過(guò)3倍。
B站來(lái)說(shuō),可以將搜索流量分發(fā)至更多中腰部up主的推廣視頻中,一定程度上可以帶著up主“共同富?!?。
小結(jié)
視頻搜索的藍(lán)圖,讓所有人垂涎。AI大模型加持下,技術(shù)正在突破ing,廣闊的商業(yè)化變現(xiàn)空間,隱隱招手。
而B(niǎo)戰(zhàn)尤甚,中視頻與視頻搜索更適配,這意味著盤(pán)活平臺(tái)的創(chuàng)作者生態(tài),促進(jìn)新一輪的生態(tài)發(fā)展。
當(dāng)然,預(yù)期總是美好的,但這一塊短中期落地方面,仍存在較大的挑戰(zhàn)。
比如,視頻訓(xùn)練成本高極高,同時(shí)AI聯(lián)想能力并不可控,可能會(huì)導(dǎo)致不恰當(dāng)關(guān)鍵詞投放,讓廣告主落入負(fù)面風(fēng)險(xiǎn)中。