文|產(chǎn)業(yè)家 思杭
編輯|皮爺
2024年初,國(guó)內(nèi)的大模型公司還未從上一波“GPT4”的焦慮當(dāng)中緩過(guò)來(lái),Sora就已經(jīng)席卷而至。緊接著,所有互聯(lián)網(wǎng)大廠幾乎都“停下手頭工作”,開(kāi)始在新的領(lǐng)域做出一點(diǎn)成績(jī),從而盡快在市場(chǎng)上發(fā)聲。
但在近期阿里蔡崇信的采訪中,他說(shuō)道,“中國(guó)AI技術(shù)可能要落后美國(guó)兩年”。在這種不斷追趕的焦慮背后,一個(gè)引人思索的問(wèn)題是,國(guó)內(nèi)大模型公司追趕的究竟是什么?
站在更為具體的賽道上來(lái)看這一問(wèn)題,作為離Sora最近的賽道——音視頻而言,這種焦慮也在不斷放大。
從GPT3.5到GPT4.0,從Runway、Pika到Sora,當(dāng)大模型的價(jià)值鏈不斷升級(jí),那些暫未爬到頂端的企業(yè),還剩下多少‘生存空間’?
實(shí)際上,于音視頻廠商而言,當(dāng)“追逐技術(shù)”變?yōu)椤白分鹩脩簟保@種價(jià)值就變得更加具體、更加實(shí)際。從近兩年音視頻廠商的發(fā)力趨勢(shì)可以看出,AI雖然是不可錯(cuò)過(guò)的大趨勢(shì),但企業(yè)要解決的難題是,如何將技術(shù)與用戶連接在一起。讓大模型發(fā)揮想象力的同時(shí),更要解決用戶的實(shí)際問(wèn)題。
AI時(shí)代,不斷進(jìn)擊的“音視頻”
2022年,先是釘釘?shù)囊惶住敖M合拳”,緊接著,音視頻PaaS/SaaS廠商也紛紛跟進(jìn),不僅大手筆投入研發(fā),還在AI方向補(bǔ)充彈藥進(jìn)行長(zhǎng)遠(yuǎn)布局,自此,圍繞音視頻賽道的“混戰(zhàn)”也正式打響。
音視頻PaaS公司“拍樂(lè)云”被收購(gòu)一事在2022年受到廣泛關(guān)注,收購(gòu)方正是阿里釘釘。一石激起千層浪,音視頻賽道迅速成為焦點(diǎn)。更為炸裂的消息是,有著視頻會(huì)議開(kāi)創(chuàng)者Webex架構(gòu)師、網(wǎng)易云信CTO和拍樂(lè)云創(chuàng)始人等多個(gè)顯赫頭銜的“趙加雨”,也攜團(tuán)隊(duì)空降釘釘音視頻事業(yè)部的一號(hào)位。
而跟隨趙加雨的這伙人,個(gè)個(gè)都是音視頻領(lǐng)域的得力干將。其中,李備是拍樂(lè)云音頻專(zhuān)家,曾有5年WebEx音頻專(zhuān)家工作經(jīng)驗(yàn);章琦,拍樂(lè)云首席科學(xué)家,8年WebEx音視頻引擎架構(gòu)師工作經(jīng)驗(yàn)。
所有信號(hào)都指向了阿里布局音視頻賽道的決心。實(shí)際上,阿里在音視頻的布局更早就開(kāi)始了。2021年11月,釘釘內(nèi)部成立了獨(dú)立的音視頻事業(yè)部,該事業(yè)部成立的初衷便是聚焦在“研究音頻技術(shù)及算法創(chuàng)新,以及探索下一代音視頻會(huì)議形態(tài)”。
釘釘這一槍打響后,長(zhǎng)年深耕在音視頻賽道的騰訊云,以及其他PaaS和SaaS廠商,也紛紛從研發(fā)、解決方案、應(yīng)用場(chǎng)景和AI方面增添自己的彈藥庫(kù)。
同樣身為互聯(lián)網(wǎng)廠商,音視頻于騰訊而言,可以算是一種“與生俱來(lái)”的基因。到2022年,騰訊云的步伐早已到了在技術(shù)側(cè)實(shí)現(xiàn)突破,以及在行業(yè)應(yīng)用上更加細(xì)分的程度。
比如騰訊云將一種能夠遠(yuǎn)程實(shí)時(shí)控制的音視頻技術(shù)方案,應(yīng)用在煤礦、港口場(chǎng)景里的無(wú)人駕駛卡車(chē)運(yùn)營(yíng)當(dāng)中。而在此之前,在傳統(tǒng)行業(yè)里實(shí)現(xiàn)遠(yuǎn)程的音視頻連接和操作,無(wú)論是技術(shù)還是應(yīng)用場(chǎng)景方面都遠(yuǎn)未達(dá)到成熟。
對(duì)于其他音視頻PaaS/SaaS廠商而言,增加研發(fā)投入則是一種更為直接的方式。
在2022年,除了阿里釘釘?shù)囊惶住敖M合拳”,音視頻賽道里的另一個(gè)重磅消息是,音視頻SaaS第一股“百家云”在納斯達(dá)克敲鐘上市。其2022上半年?duì)I收就達(dá)到了6860萬(wàn)美元,實(shí)現(xiàn)同比增長(zhǎng)65.5%。在2023年其更是凈利潤(rùn)達(dá)480萬(wàn)美元,實(shí)現(xiàn)扭虧為盈。而其研發(fā)費(fèi)用更從2021財(cái)年的580萬(wàn)美元大幅增加到2022財(cái)年的1300萬(wàn)美元。
實(shí)際上,這種研發(fā)費(fèi)用的驟增不僅僅是底層技術(shù)方面的發(fā)力,還有定制化和AI方面的投入。從財(cái)報(bào)中看,在2022財(cái)年的全年?duì)I收中還增加了一項(xiàng)“定制平臺(tái)開(kāi)發(fā)服務(wù)”,全年該業(yè)務(wù)的營(yíng)收達(dá)到了1030萬(wàn)美元;而AI解決方案的收入也增加了760萬(wàn)美元。
而與SaaS廠商不同,音視頻PaaS廠商的研發(fā)投入則更重。以聲網(wǎng)為例,根據(jù)其2022年的財(cái)報(bào)顯示,當(dāng)年的全年總營(yíng)收是1.61億美元,而單是研發(fā)費(fèi)用就達(dá)到了1.1億美元。
那么,這1.1個(gè)億的費(fèi)用具體體現(xiàn)在哪些方面?
2023年,聲網(wǎng)推出“鳳鳴AI引擎”,將AI降噪、AI回聲消除、空間音頻等技術(shù)進(jìn)行了集成;在視頻方向,推出了超高清能力的超分、畫(huà)質(zhì)提升、感知編碼、虛擬背景和AR特效等增強(qiáng)觀看體驗(yàn)、臨場(chǎng)感和互動(dòng)表達(dá)能力的實(shí)時(shí)AI技術(shù);也開(kāi)發(fā)了語(yǔ)音轉(zhuǎn)文字、內(nèi)容審核等AI功能來(lái)增加信息提取、傳遞和保存的維度。
這是在AI時(shí)代、大模型時(shí)代下對(duì)智能化的一種響應(yīng)。但羅馬不是一天建成的。于音視頻廠商而言,推出AI相關(guān)的技術(shù)或應(yīng)用場(chǎng)景需要長(zhǎng)期的投入。
無(wú)論是聲網(wǎng),還是保利威、百家云等其他音視頻PaaS/SaaS廠商,對(duì)于AI的積累都要追溯到幾年前。只是從外界聲音來(lái)看,2023年是集中發(fā)力的一年。
以聲網(wǎng)為例,在鳳鳴AI引擎中集成的大部分技術(shù)都源于多年的積累。產(chǎn)業(yè)家向聲網(wǎng)CTO鐘聲了解到,“空間音頻”是鳳鳴AI引擎中集成的技術(shù)。利用AI算法來(lái)模擬頭部球面區(qū)域的立體聲場(chǎng),在更細(xì)微處,甚至能捕捉到人的喜怒哀樂(lè),將這種三維信息提取出來(lái)再放到AR增強(qiáng)的場(chǎng)景。從技術(shù)處理的細(xì)節(jié)便可以感知到,它是一種“厚積薄發(fā)”的產(chǎn)物。
實(shí)際上2023年,大模型在國(guó)內(nèi)“狂飆”的同時(shí),音視頻廠商更是不可能錯(cuò)過(guò)這波風(fēng)口。技術(shù)的長(zhǎng)期投入,這一年給音視頻廠商的機(jī)會(huì)是在服務(wù)場(chǎng)景上更深化、更細(xì)致。
最為常見(jiàn)的便是AIGC解決方案的發(fā)布,這也是在市場(chǎng)層面能夠迅速引發(fā)關(guān)注的方式。比如聲網(wǎng)在去年發(fā)布RTE X AIGC 一站式產(chǎn)品能力解決方案;百家云發(fā)布全新AIGC產(chǎn)品“市場(chǎng)易”;騰訊云在音視頻產(chǎn)品矩陣上的智能化升級(jí);保利威發(fā)布AI智能教育解決方案;即構(gòu)推出AI視頻生成應(yīng)用“即構(gòu)數(shù)智人”等等。
而在無(wú)數(shù)的聲音背后,大模型給音視頻帶來(lái)的實(shí)際價(jià)值是什么?
技術(shù)、落地場(chǎng)景和“大小模型”方案
“到了今天這個(gè)時(shí)代,客戶不會(huì)關(guān)注噱頭,而是更切實(shí)地關(guān)注提高了多少效率,降低了多少成本。”這是保利威全國(guó)售前總經(jīng)理王建成近兩年的感受。
技術(shù)不斷進(jìn)步的同時(shí),服務(wù)場(chǎng)景也正在進(jìn)一步深化。
拋開(kāi)底層技術(shù),在大模型時(shí)代,如果說(shuō)真正能在效率上提升,以及成本上有所降低,用戶一定會(huì)在操作體驗(yàn)層面有更強(qiáng)的感知。
那么,更為細(xì)致的應(yīng)用場(chǎng)景,便是結(jié)合AI大模型,來(lái)解決曾經(jīng)幾乎“不可能”的事情。
以金融領(lǐng)域?yàn)槔?,其監(jiān)管十分嚴(yán)格。一種常見(jiàn)的情況是,在直播過(guò)程中需要人為干預(yù),進(jìn)行監(jiān)聽(tīng)。所以這種情況下,實(shí)時(shí)生成字幕對(duì)于大部分的金融客戶就很難滿足。
王建成告訴產(chǎn)業(yè)家,保利威的做法是結(jié)合金融客戶的特殊需求和行業(yè)特點(diǎn),做出一種專(zhuān)為金融行業(yè)打造的特殊模型。
這是一種將直播技術(shù)與業(yè)務(wù)結(jié)合的最佳例證。而在AI大模型時(shí)代,在技術(shù)高度不斷刷新的當(dāng)下,真正去解決用戶的實(shí)際問(wèn)題,對(duì)于音視頻SaaS廠商,或許是一個(gè)更為務(wù)實(shí)的答案。
為什么說(shuō)焦慮與現(xiàn)實(shí)有時(shí)并不成正比?
一方面,技術(shù)高度的不斷刷新確實(shí)會(huì)帶給人更大的焦慮,但另一方面,從現(xiàn)實(shí)的角度來(lái)講,技術(shù)高度的不斷刷新卻并未真正下沉到產(chǎn)業(yè),發(fā)揮真正的價(jià)值。
根據(jù)艾瑞咨詢報(bào)告顯示,在目前實(shí)時(shí)音視頻領(lǐng)域,領(lǐng)跑場(chǎng)景依舊停留在C端,在實(shí)際生產(chǎn)過(guò)程中,產(chǎn)業(yè)數(shù)字化的價(jià)值微乎其微。
那么,從技術(shù)的角度出發(fā),音視頻技術(shù)現(xiàn)在究竟發(fā)展到什么程度了?
可以看到的是,騰訊云已經(jīng)能夠?qū)崿F(xiàn)在煤礦、港口場(chǎng)景里,實(shí)時(shí)控制無(wú)人駕駛卡車(chē)運(yùn)營(yíng)。這是近兩年較為新鮮的嘗試。在這些場(chǎng)景同樣有所布局的還有聲網(wǎng)。除了更深入產(chǎn)業(yè)側(cè)的工業(yè)領(lǐng)域 ,聲網(wǎng)也在IoT行業(yè)、醫(yī)療健康行業(yè)持續(xù)發(fā)力。
而在大模型未到來(lái)之前,遠(yuǎn)程的音視頻連接和操作,無(wú)論是技術(shù)還是應(yīng)用場(chǎng)景方面都遠(yuǎn)未達(dá)到成熟。
站在技術(shù)的角度,更具體來(lái)講,大模型給音視頻領(lǐng)域帶來(lái)的是更大的想象力。
2023年,阿里云智能高級(jí)算法專(zhuān)家劉國(guó)棟在深圳的一席演講中提到了一種大模型與小模型結(jié)合的技術(shù)。
在大模型還未出現(xiàn)的時(shí)候,只有小模型。其實(shí),大模型與小模型都有各自的局限。小模型的局限在于其泛化能力比較差。而泛化能力差,通俗來(lái)講,就是小模型的理解和生成能力不好。但其優(yōu)點(diǎn)在于,小模型、傳統(tǒng)算法在算法開(kāi)發(fā)、工程優(yōu)化方面已相對(duì)比較成熟,小模型的訓(xùn)練資源占用少且訓(xùn)練速度快,部署容易,端側(cè)落地性強(qiáng)。
而大模型出現(xiàn)后,這些問(wèn)題都一一被解決了。而大模型的局限性在于,細(xì)粒度的問(wèn)題還不能完美處理、容易出現(xiàn)幻覺(jué)現(xiàn)象、推理訓(xùn)練成本都比較高等。
因此,大小模型協(xié)同便是最好的解決方案。通過(guò)讓大模型和小模型并聯(lián)和相互引導(dǎo)的方式,來(lái)優(yōu)化各自的問(wèn)題。
而對(duì)于大模型與小模型的“協(xié)同”方面,聲網(wǎng)也有自己的理解。對(duì)此,鐘聲向產(chǎn)業(yè)家解釋道,“大模型的參數(shù)很大,需要巨量的數(shù)據(jù)包括高質(zhì)量的數(shù)據(jù)來(lái)訓(xùn)練。一個(gè)符合常理的邏輯是,最領(lǐng)先的大模型,其推理能力較強(qiáng),可以通過(guò)蒸餾等方法來(lái)訓(xùn)練小模型。大模型產(chǎn)生的結(jié)果,具備一定的質(zhì)量,可以用來(lái)訓(xùn)練小模型。未來(lái),大小模型應(yīng)該以‘聯(lián)合行動(dòng)’的方式來(lái)共同完成任務(wù),在算力、延時(shí)、隱私保護(hù)等方面實(shí)現(xiàn)一種更好的融合。”
一個(gè)更為遙遠(yuǎn)的暢想是,隨著端上算力的增強(qiáng),有著幾十億參數(shù)的大模型未來(lái)也有可能在端上運(yùn)行。屆時(shí),在各個(gè)領(lǐng)域?qū)崿F(xiàn)“實(shí)時(shí)音視頻”則會(huì)成為現(xiàn)實(shí)。
更大的焦慮,更大的想象力
從GPT3.5到GPT4.0,從Runway、Pika到Sora,當(dāng)大模型的價(jià)值鏈不斷升級(jí),那些暫時(shí)還未爬到頂端的企業(yè),還剩下多少“生存空間”?
這是一個(gè)引人深思的發(fā)問(wèn)。
近兩年,科技界追逐技術(shù)的熱情在不斷高漲。大眾對(duì)于AI的焦慮是更為遙遠(yuǎn)的“生存威脅”,而科技界對(duì)AI焦慮則是由所謂“參數(shù)”和“長(zhǎng)文本”所“卷”起來(lái)的商業(yè)競(jìng)爭(zhēng)。
如果聚焦到產(chǎn)業(yè)側(cè),聚焦到更實(shí)際的賽道,不斷刷新的榜單,不斷升級(jí)的參數(shù)、上下文長(zhǎng)度,這些對(duì)于音視頻廠商而言意味著什么?
在與鐘聲的對(duì)話中了解到,聲網(wǎng)所追求的是實(shí)時(shí)性。而從目前來(lái)看,如果在云端的服務(wù)器上運(yùn)行,最后在傳輸?shù)蕉说脑O(shè)備上,很難實(shí)現(xiàn)“實(shí)時(shí)性”。所以聲網(wǎng)的做法是是在端上進(jìn)行計(jì)算。但客觀來(lái)講,端上運(yùn)算的局限是算力不夠。
對(duì)此,鐘聲發(fā)表了一種觀點(diǎn),雖然現(xiàn)在最前沿的技術(shù)都在追求Scaling Law(規(guī)模效應(yīng))支撐下的大模型,但對(duì)于聲網(wǎng)而言,追求極致的小模型意義則要更大一些。首先保證低延時(shí)、低成本,直接讓很小的AI算法在端上發(fā)力,通過(guò)極致、精準(zhǔn)的算法來(lái)讓音視頻發(fā)揮最大的價(jià)值,低延時(shí)低成本可以為更多需要實(shí)時(shí)互動(dòng)的客戶和用戶釋放出或者創(chuàng)造出巨大的價(jià)值;這方面業(yè)界的關(guān)注度還不夠,但終會(huì)成為焦點(diǎn)。聲網(wǎng)在這方面則做了較為專(zhuān)注的研發(fā)投入。
站在更實(shí)際的角度,如果在云端運(yùn)算,雖然在大算力的支持下運(yùn)行大模型,最終可以得到較好的效果,但現(xiàn)實(shí)情況是,在大多數(shù)的消費(fèi)側(cè)場(chǎng)景,比如社交娛樂(lè),系統(tǒng)響應(yīng)延時(shí)過(guò)大,本身就不太像AGI,客戶或用戶也不可能花較高的費(fèi)用來(lái)追求響應(yīng)較慢的AGI效果。所以,在端上低延時(shí)低成本的運(yùn)算更為有需求。
同時(shí),鐘聲提出了一種暢想,在音視頻領(lǐng)域,AGI最終會(huì)發(fā)展成端邊云結(jié)合的方式,以平衡算力、延時(shí)、隱私和數(shù)據(jù)保護(hù)等幾個(gè)AI發(fā)展的關(guān)鍵要素。
這是大模型賦予音視頻廠商的想象力,而這種想象力也會(huì)應(yīng)用到更現(xiàn)實(shí)的場(chǎng)景解決更實(shí)際的問(wèn)題,比如醫(yī)療領(lǐng)域里會(huì)用到的遠(yuǎn)程救治,其實(shí)時(shí)性要求極高,延遲1s都可能威脅到生命。
那么,在當(dāng)下這個(gè)拼技術(shù)刷榜單的大模型時(shí)代,音視頻廠商要如何順應(yīng)AI時(shí)代?
實(shí)際上,近兩年音視頻的發(fā)展趨勢(shì)已經(jīng)從關(guān)注技術(shù),走向關(guān)注更為實(shí)際的“降本增效”。以保利威為例,其SaaS訂閱收入達(dá)到90%成績(jī)背后,是結(jié)合具體的業(yè)務(wù)來(lái)解決實(shí)際用戶的問(wèn)題。
如果通過(guò)大模型所提升的音視頻技術(shù),不再止步于社交和娛樂(lè),而是更為具體的生產(chǎn)環(huán)節(jié),甚至是治病救人,那么也許實(shí)時(shí)音視頻才會(huì)實(shí)現(xiàn)破圈,走向大眾。