文|表外表里 張冉冉 黑銀柯 周霄
編輯|付曉玲 Reno
數(shù)據(jù)支持 | 洞見數(shù)據(jù)研究院
“未來的搜索形式會不斷地發(fā)生變化,但是它的市場規(guī)模之大,恐怕遠(yuǎn)超很多人的想象?!?/p>
李彥宏4年前打出的子彈,時至今日,似乎擊中了百度自己。
近期(七月底)B站投資者日上,管理層披露業(yè)務(wù)最新進(jìn)展:“B站在搜索這塊,有非常大的流量增長空間,今年Q2起,我們會增加搜索廣告的嘗試?!?/p>
而更早之前,3月初B站開始陸續(xù)出現(xiàn)搜索廣告。比如搜索“游戲”,搜索結(jié)果中的第三個位置展示了游戲廣告。
也就是說:B站給出商業(yè)化可能的答案,正是視頻搜索。
實(shí)際上,這不是無源之水,也不是無本之末。行業(yè)趨勢便是如此,目前視頻平臺的搜索趨勢都愈加明顯。抖快均在去年上線搜索廣告,Tiktok也在今年3月放開搜索廣告。
對于后面的發(fā)展,普遍信心十足。如快手2023Q1電話會議也說道:搜索流量快速增長,搜索廣告轉(zhuǎn)化效率更高。
巧合的是,這都是最新一個季度發(fā)生的轉(zhuǎn)變。這顯然離不開過去半年AIGC的大熱——行業(yè)由TensorFlow時代,發(fā)展至Transformer時代。
當(dāng)下,技術(shù)進(jìn)步的催化,或許打開了視頻搜索可能性。過去受制于視頻搜索技術(shù)、時間效率、成本(人工、硬件)等難題,正在不同程度的一一發(fā)生變化。
這自然會打破過去視頻行業(yè)的商業(yè)化天花板。
相比長視頻(缺乏有用性)、短視頻(純粹奶頭樂)的特征,B站獨(dú)特的中視頻、泛知識、通俗有趣等特征,匹配搜索行為的特定需求,會產(chǎn)生更好的化合效應(yīng)。
在AIGC時代,視頻搜索或?qū)⒊删虰站的“野望”,同時,引發(fā)百度的“危機(jī)”。
一、AI實(shí)現(xiàn)“看視頻說話”,視頻平臺就能坐上金礦
很長的互聯(lián)網(wǎng)發(fā)展周期里,視頻搜索都被證明是一條很困難的賽道。
難就難在,視頻搜索的整個搜索流程里(輸入關(guān)鍵詞→解析關(guān)鍵詞→召回→結(jié)果呈現(xiàn)),召回和結(jié)果呈現(xiàn)環(huán)節(jié),都存在很大挑戰(zhàn)。
以召回環(huán)節(jié)來說,要實(shí)現(xiàn)這點(diǎn)——根據(jù)輸入的關(guān)鍵詞,與數(shù)據(jù)庫內(nèi)容進(jìn)行匹配,檢索出最符合的視頻——不僅要求平臺擁有豐富的視頻內(nèi)容池,還要有搜索的精準(zhǔn)度。
內(nèi)容豐富度方面,視頻內(nèi)容因?yàn)閯?chuàng)作門檻高、時間短等原因,在深度與厚度沉淀上有限。
搜索精準(zhǔn)度上,則存在更大的挑戰(zhàn)。舉個例子,在谷歌上搜索“邊牧智商”,呈現(xiàn)的第一個搜索文章,內(nèi)容里明確有邊牧如何高智商的解釋字眼。
但如果在YouTube上有一個視頻,從能聽懂人話、完成指令等各個動態(tài)維度,更直觀展示了邊牧智商很高,可標(biāo)題、字幕等卻沒有提及邊牧智商等文字標(biāo)簽,這個視頻就很難被搜到。
之所以會這樣,是因?yàn)橐曨l融合了文字、圖片等多模態(tài)信息,相比純文章,內(nèi)容理解要難得多——很難將視頻里的狗子,識別成為邊牧,更難把邊牧的動作,和高智商掛鉤。
事實(shí)上,2017年Transformer架構(gòu)被提出之后,多模態(tài)模型已不斷進(jìn)化。
比如,先是谷歌由此架構(gòu)提出了實(shí)現(xiàn)圖像分類的ViT模型,將Transformer 帶到了視覺領(lǐng)域,但該模型仍然只是單圖像模態(tài)。
在其之后,OpenAI提出了CLIP模型,可以基于文本對圖片進(jìn)行分類,包括圖像處理和文本處理兩方面的內(nèi)容,打破了過去二者涇渭分明的界限,實(shí)現(xiàn)多模態(tài)。
而且,CLIP在GPT-3的啟發(fā)下,可以直接全網(wǎng)數(shù)據(jù)爬蟲,一圖一文匹配,稍微做篩選即可,幾乎不需要人工標(biāo)注,實(shí)現(xiàn)了更高的成本和時間效率。
要知道,過去的視覺模型都是基于人工標(biāo)注的數(shù)據(jù)集訓(xùn)練,而一秒視頻至少有24幀,短短一分鐘的視頻就能夠提取出1440張圖像,把其應(yīng)用到視頻識別上,成本極高。
但盡管CLIP在識別常見物體上表現(xiàn)良好,卻無法處理更抽象的任務(wù),比如輸出圖片中物體的個數(shù)等需要一定邏輯思維推理的任務(wù)。
也就是說,此時的圖像識別,更像人的視網(wǎng)膜原理。但人不光是眼睛看到了當(dāng)前的情況,大腦還得對情況有相應(yīng)的反應(yīng)。
這需要算法具備像大腦一樣的語義理解能力,才能夠全面理解視頻,更好地支撐關(guān)鍵詞的召回匹配和排序。
而幾個月前發(fā)布的GPT-4,讓這一問題有了解決的跡象。
比如在對話中輸入下圖,GPT-4 的回答是“這是一棵生長在冰凍湖上的仙人掌,它周圍長滿了巨大的冰晶,遠(yuǎn)處還有白雪覆蓋的山峰”。
繼續(xù)問“這種景象在現(xiàn)實(shí)世界中是否常見”,其解釋很少有這樣的景象,并給出相應(yīng)原因。
也就是說,最新的GPT 4已經(jīng)具備了“看圖說話”的能力——不僅做了物體的識別,還可以做很多語義的解讀。
以此后推,隨著AI模型加速迭代,“看視頻說話”也指日可待。當(dāng)然,反過來也能夠?qū)崿F(xiàn)文本生成視頻,降低制作視頻的門檻。
但GPT-4這個能力目前只在宣布階段,還不存在一個完整的多模態(tài)大模型,需要一定時間的探索。
況且,多模態(tài)大模型要以圖像和視頻等作為訓(xùn)練數(shù)據(jù),文件大小遠(yuǎn)大于語言類模型,算力成本極高。
比如,百度的文心一言雖然展示了視頻生成能力,但因成本較高,現(xiàn)階段還未對所有用戶開放。
而在結(jié)果呈現(xiàn)環(huán)節(jié),視頻也不能像文章一樣快速瀏覽,ctrl+F查找,一個十分鐘的視頻,可能到后半段才有你要的信息,再加上暫停、記錄,三十分鐘都搞不定。
但這個問題,國內(nèi)已有音視頻大模型破解:將視頻信息歸納總結(jié),想看哪一段,直接點(diǎn)擊章節(jié),就可以跳轉(zhuǎn)到相應(yīng)的時間段播放。
總的來說,隨著視頻AI技術(shù)的應(yīng)用,視頻搜索在核心的內(nèi)容豐富度以及搜索精準(zhǔn)度,都有望解決。
何況視頻本身比文本就更加直觀生動,更具吸引力——截止2022年6月,國內(nèi)網(wǎng)民每天一半的網(wǎng)上娛樂時間都花在短視頻平臺上。
種種利好疊加,到那時,視頻或能代替文本成為搜索的主流。當(dāng)下在海外,這種苗頭已經(jīng)出現(xiàn)。
Chowdhury機(jī)構(gòu)調(diào)研顯示,近40%的年輕人在尋找吃飯的地方時,會在TikTok進(jìn)行,而不是谷歌搜索。
可以看到,海外年輕人平均每天都要沉浸在TikTok上近兩個小時。在這兩個小時內(nèi),但凡看到有趣的內(nèi)容,自然觸發(fā)搜索行為。
這樣的情況,讓谷歌深感威脅。據(jù)透露,谷歌數(shù)百名員工被分配到一個被稱為“重要的搜索轉(zhuǎn)移”的項(xiàng)目中工作,該項(xiàng)目的內(nèi)容是讓搜索結(jié)果顯示更多圖像和視頻。
顯然,這對百度來說,也可能是未來會遇到的情況。
但“驚喜”,遠(yuǎn)不止此。
不同于文字,視頻能潤物細(xì)無聲地植入廣告,吸引用戶點(diǎn)擊。最早上線視頻搜索廣告的youtube曾表示,視頻搜索廣告帶來的點(diǎn)擊次數(shù)比插播廣告,高出近五倍。
不止點(diǎn)擊率,廣告價格方面也是一樣。視頻平臺本身在算法推薦上就具備優(yōu)勢,再與搜索結(jié)合,廣告精準(zhǔn)度提升,就有人買單。
總的來說,視頻搜索場景下,搜索廣告的幾大驅(qū)動因子——流量、加載率、點(diǎn)擊率、價格等都有了進(jìn)一步提高的可能。
這樣一來,意味著一旦技術(shù)突破,視頻搜索可能會重構(gòu)搜索廣告的生態(tài)與邏輯,視頻平臺相當(dāng)于坐上了金礦。
二、“潑天富貴”終于輪到B站?
B站14周年慶上(6月召開),陳睿當(dāng)著全國年輕人的面,向中長視頻UP主服軟稱,“要用更真實(shí)的播放分鐘數(shù)去替代播放次數(shù),作為B站視頻的主要外顯數(shù)字?!?/p>
那么,為何B站會口風(fēng)大變呢?
其實(shí),管理層可能不是在討好中長視頻UP主們,而是要迎接自己的時代。
眾所周知,一直以來,抖快以沉浸式娛樂內(nèi)容,在日活、用戶時長上,壓了視頻號、B站等以泛知識內(nèi)容為主的平臺一頭。
但視頻搜索場景下,兩者的處境截然相反。
YouTube相關(guān)負(fù)責(zé)人曾提到:“YouTube上,每周經(jīng)由關(guān)鍵詞搜索而產(chǎn)生的視頻瀏覽量有數(shù)十億次,許多風(fēng)格偏實(shí)用的視頻正是通過這種方式被發(fā)現(xiàn)的?!?/p>
其所說的實(shí)用視頻正是how to(如何...)類視頻——Youtube上每天有數(shù)以百萬計(jì)的搜索關(guān)鍵詞當(dāng)中包含“how to”,用戶花在“how to”類視頻的時間是“寵物和動物”的10倍。
原因在于:視頻搜索是有目的性的,偏知識類的內(nèi)容,更符合搜索需求。
而這也是B站的舒適區(qū),可以看到,截至今年3月份,B站泛知識內(nèi)容占比41%,“學(xué)習(xí)網(wǎng)站”的名頭無意中越來越夯實(shí)。
如此就不難理解,為何“睿帝”低頭,調(diào)整激勵方式。
不過,內(nèi)容優(yōu)質(zhì)只是一方面,視頻搜索效率高,還要能提取足夠多的關(guān)鍵詞。
這一點(diǎn)來看,同一關(guān)鍵詞分別在抖音、B站搜索到的標(biāo)題匯總顯示:抖快視頻標(biāo)題很長,但大多數(shù)采用現(xiàn)成的tag,或者“標(biāo)題黨”類標(biāo)題;
相比之下,B站的標(biāo)題簡單,可大多具備關(guān)鍵詞匯,也更加專業(yè)。
搜索內(nèi)容呈現(xiàn)也是一樣,以“山東地震”為例,抖音搜索結(jié)果聚焦在“肯定要先跑出去呀”、“啊啊啊啊啊,地震了”等博主本人感受。
B站搜索到的諸如“山東為何突然爆發(fā)地震?”等知識科普,創(chuàng)作者更多運(yùn)用“板塊運(yùn)動”“斷裂帶”等專業(yè)詞匯講解。
也就是說,無論標(biāo)題、內(nèi)容,還是時長方面,中視頻比短視頻都更易提取關(guān)鍵詞,與視頻搜索更適配。
且短視頻平臺的創(chuàng)作者想轉(zhuǎn)向做中長視頻,恐怕也有難度??梢钥吹?,過去一年,不少千萬粉絲的抖音創(chuàng)作者入駐B站后,粉絲量表現(xiàn)均不佳。
此外,用戶自己搜索所需下,優(yōu)質(zhì)的內(nèi)容能夠獲得更長的生命周期。
仍以youtube為例,上述所說的How to(如何...)類視頻生命周期極長,即使過去很長時間,依然能維持較高的熱度,甚至是逆襲式的消費(fèi)曲線。
B站自己也有這樣的暢想,2022Q4電話會議曾提到:B站上面有很多知識類內(nèi)容,都有很好的歷史價值,幾年以后大家也都會去看它。ChatGPT的搜索體驗(yàn),它可以把B站的內(nèi)容積累的價值,更充分地發(fā)揮出來。
這樣一來,會激勵創(chuàng)作者產(chǎn)出更多優(yōu)質(zhì)內(nèi)容,而不是像當(dāng)下的Story Mode模式,不斷沖擊站內(nèi)的中長視頻UP主基本盤。
有了更多的優(yōu)質(zhì)內(nèi)容,就能夠擴(kuò)大搜索流量池,廣告主聞利而來,創(chuàng)作者也能獲得更多收益,社區(qū)生態(tài)整個良性循環(huán)。
換言之,如果技術(shù)實(shí)現(xiàn)突破,相比可能讓B站陷入“死亡螺旋”的Story Mode模式,視頻搜索廣告才是良藥。(詳情請參考《B站能否避開死亡螺旋?》一文)
更何況除了拉動正循環(huán),搜索場景下,平臺還掌握著宏觀調(diào)控的權(quán)力。
如YouTube,2020年提升了how-to類內(nèi)容和高商業(yè)化KOL分發(fā)權(quán)重,當(dāng)年廣告營收達(dá)到198億美元,相比2017年翻了超過3倍。
B站來說,可以將搜索流量分發(fā)至更多中腰部up主的推廣視頻中,一定程度上可以帶著up主“共同富?!?。
小結(jié)
視頻搜索的藍(lán)圖,讓所有人垂涎。AI大模型加持下,技術(shù)正在突破ing,廣闊的商業(yè)化變現(xiàn)空間,隱隱招手。
而B戰(zhàn)尤甚,中視頻與視頻搜索更適配,這意味著盤活平臺的創(chuàng)作者生態(tài),促進(jìn)新一輪的生態(tài)發(fā)展。
當(dāng)然,預(yù)期總是美好的,但這一塊短中期落地方面,仍存在較大的挑戰(zhàn)。
比如,視頻訓(xùn)練成本高極高,同時AI聯(lián)想能力并不可控,可能會導(dǎo)致不恰當(dāng)關(guān)鍵詞投放,讓廣告主落入負(fù)面風(fēng)險中。