正在閱讀:

“更大的焦慮,更大的想象力”:音視頻廠商如何闖入AI時(shí)代?

掃一掃下載界面新聞APP

“更大的焦慮,更大的想象力”:音視頻廠商如何闖入AI時(shí)代?

于音視頻廠商而言,企業(yè)要解決的難題是,如何將技術(shù)與用戶連接在一起。

文|產(chǎn)業(yè)家 思杭

編輯|皮爺

2024年初,國內(nèi)的大模型公司還未從上一波“GPT4”的焦慮當(dāng)中緩過來,Sora就已經(jīng)席卷而至。緊接著,所有互聯(lián)網(wǎng)大廠幾乎都“停下手頭工作”,開始在新的領(lǐng)域做出一點(diǎn)成績,從而盡快在市場上發(fā)聲。

但在近期阿里蔡崇信的采訪中,他說道,“中國AI技術(shù)可能要落后美國兩年”。在這種不斷追趕的焦慮背后,一個(gè)引人思索的問題是,國內(nèi)大模型公司追趕的究竟是什么?

站在更為具體的賽道上來看這一問題,作為離Sora最近的賽道——音視頻而言,這種焦慮也在不斷放大。

從GPT3.5到GPT4.0,從Runway、Pika到Sora,當(dāng)大模型的價(jià)值鏈不斷升級(jí),那些暫未爬到頂端的企業(yè),還剩下多少‘生存空間’?

實(shí)際上,于音視頻廠商而言,當(dāng)“追逐技術(shù)”變?yōu)椤白分鹩脩簟?,這種價(jià)值就變得更加具體、更加實(shí)際。從近兩年音視頻廠商的發(fā)力趨勢可以看出,AI雖然是不可錯(cuò)過的大趨勢,但企業(yè)要解決的難題是,如何將技術(shù)與用戶連接在一起。讓大模型發(fā)揮想象力的同時(shí),更要解決用戶的實(shí)際問題。

AI時(shí)代,不斷進(jìn)擊的“音視頻”

2022年,先是釘釘?shù)囊惶住敖M合拳”,緊接著,音視頻PaaS/SaaS廠商也紛紛跟進(jìn),不僅大手筆投入研發(fā),還在AI方向補(bǔ)充彈藥進(jìn)行長遠(yuǎn)布局,自此,圍繞音視頻賽道的“混戰(zhàn)”也正式打響。

音視頻PaaS公司“拍樂云”被收購一事在2022年受到廣泛關(guān)注,收購方正是阿里釘釘。一石激起千層浪,音視頻賽道迅速成為焦點(diǎn)。更為炸裂的消息是,有著視頻會(huì)議開創(chuàng)者Webex架構(gòu)師、網(wǎng)易云信CTO和拍樂云創(chuàng)始人等多個(gè)顯赫頭銜的“趙加雨”,也攜團(tuán)隊(duì)空降釘釘音視頻事業(yè)部的一號(hào)位。

而跟隨趙加雨的這伙人,個(gè)個(gè)都是音視頻領(lǐng)域的得力干將。其中,李備是拍樂云音頻專家,曾有5年WebEx音頻專家工作經(jīng)驗(yàn);章琦,拍樂云首席科學(xué)家,8年WebEx音視頻引擎架構(gòu)師工作經(jīng)驗(yàn)。

所有信號(hào)都指向了阿里布局音視頻賽道的決心。實(shí)際上,阿里在音視頻的布局更早就開始了。2021年11月,釘釘內(nèi)部成立了獨(dú)立的音視頻事業(yè)部,該事業(yè)部成立的初衷便是聚焦在“研究音頻技術(shù)及算法創(chuàng)新,以及探索下一代音視頻會(huì)議形態(tài)”。

釘釘這一槍打響后,長年深耕在音視頻賽道的騰訊云,以及其他PaaS和SaaS廠商,也紛紛從研發(fā)、解決方案、應(yīng)用場景和AI方面增添自己的彈藥庫。

同樣身為互聯(lián)網(wǎng)廠商,音視頻于騰訊而言,可以算是一種“與生俱來”的基因。到2022年,騰訊云的步伐早已到了在技術(shù)側(cè)實(shí)現(xiàn)突破,以及在行業(yè)應(yīng)用上更加細(xì)分的程度。

比如騰訊云將一種能夠遠(yuǎn)程實(shí)時(shí)控制的音視頻技術(shù)方案,應(yīng)用在煤礦、港口場景里的無人駕駛卡車運(yùn)營當(dāng)中。而在此之前,在傳統(tǒng)行業(yè)里實(shí)現(xiàn)遠(yuǎn)程的音視頻連接和操作,無論是技術(shù)還是應(yīng)用場景方面都遠(yuǎn)未達(dá)到成熟。

對(duì)于其他音視頻PaaS/SaaS廠商而言,增加研發(fā)投入則是一種更為直接的方式。

在2022年,除了阿里釘釘?shù)囊惶住敖M合拳”,音視頻賽道里的另一個(gè)重磅消息是,音視頻SaaS第一股“百家云”在納斯達(dá)克敲鐘上市。其2022上半年?duì)I收就達(dá)到了6860萬美元,實(shí)現(xiàn)同比增長65.5%。在2023年其更是凈利潤達(dá)480萬美元,實(shí)現(xiàn)扭虧為盈。而其研發(fā)費(fèi)用更從2021財(cái)年的580萬美元大幅增加到2022財(cái)年的1300萬美元。

實(shí)際上,這種研發(fā)費(fèi)用的驟增不僅僅是底層技術(shù)方面的發(fā)力,還有定制化和AI方面的投入。從財(cái)報(bào)中看,在2022財(cái)年的全年?duì)I收中還增加了一項(xiàng)“定制平臺(tái)開發(fā)服務(wù)”,全年該業(yè)務(wù)的營收達(dá)到了1030萬美元;而AI解決方案的收入也增加了760萬美元。

而與SaaS廠商不同,音視頻PaaS廠商的研發(fā)投入則更重。以聲網(wǎng)為例,根據(jù)其2022年的財(cái)報(bào)顯示,當(dāng)年的全年總營收是1.61億美元,而單是研發(fā)費(fèi)用就達(dá)到了1.1億美元。

那么,這1.1個(gè)億的費(fèi)用具體體現(xiàn)在哪些方面?

2023年,聲網(wǎng)推出“鳳鳴AI引擎”,將AI降噪、AI回聲消除、空間音頻等技術(shù)進(jìn)行了集成;在視頻方向,推出了超高清能力的超分、畫質(zhì)提升、感知編碼、虛擬背景和AR特效等增強(qiáng)觀看體驗(yàn)、臨場感和互動(dòng)表達(dá)能力的實(shí)時(shí)AI技術(shù);也開發(fā)了語音轉(zhuǎn)文字、內(nèi)容審核等AI功能來增加信息提取、傳遞和保存的維度。

這是在AI時(shí)代、大模型時(shí)代下對(duì)智能化的一種響應(yīng)。但羅馬不是一天建成的。于音視頻廠商而言,推出AI相關(guān)的技術(shù)或應(yīng)用場景需要長期的投入。

無論是聲網(wǎng),還是保利威、百家云等其他音視頻PaaS/SaaS廠商,對(duì)于AI的積累都要追溯到幾年前。只是從外界聲音來看,2023年是集中發(fā)力的一年。

以聲網(wǎng)為例,在鳳鳴AI引擎中集成的大部分技術(shù)都源于多年的積累。產(chǎn)業(yè)家向聲網(wǎng)CTO鐘聲了解到,“空間音頻”是鳳鳴AI引擎中集成的技術(shù)。利用AI算法來模擬頭部球面區(qū)域的立體聲場,在更細(xì)微處,甚至能捕捉到人的喜怒哀樂,將這種三維信息提取出來再放到AR增強(qiáng)的場景。從技術(shù)處理的細(xì)節(jié)便可以感知到,它是一種“厚積薄發(fā)”的產(chǎn)物。

實(shí)際上2023年,大模型在國內(nèi)“狂飆”的同時(shí),音視頻廠商更是不可能錯(cuò)過這波風(fēng)口。技術(shù)的長期投入,這一年給音視頻廠商的機(jī)會(huì)是在服務(wù)場景上更深化、更細(xì)致。

最為常見的便是AIGC解決方案的發(fā)布,這也是在市場層面能夠迅速引發(fā)關(guān)注的方式。比如聲網(wǎng)在去年發(fā)布RTE X AIGC 一站式產(chǎn)品能力解決方案;百家云發(fā)布全新AIGC產(chǎn)品“市場易”;騰訊云在音視頻產(chǎn)品矩陣上的智能化升級(jí);保利威發(fā)布AI智能教育解決方案;即構(gòu)推出AI視頻生成應(yīng)用“即構(gòu)數(shù)智人”等等。

而在無數(shù)的聲音背后,大模型給音視頻帶來的實(shí)際價(jià)值是什么?

技術(shù)、落地場景和“大小模型”方案

“到了今天這個(gè)時(shí)代,客戶不會(huì)關(guān)注噱頭,而是更切實(shí)地關(guān)注提高了多少效率,降低了多少成本?!边@是保利威全國售前總經(jīng)理王建成近兩年的感受。

技術(shù)不斷進(jìn)步的同時(shí),服務(wù)場景也正在進(jìn)一步深化。

拋開底層技術(shù),在大模型時(shí)代,如果說真正能在效率上提升,以及成本上有所降低,用戶一定會(huì)在操作體驗(yàn)層面有更強(qiáng)的感知。

那么,更為細(xì)致的應(yīng)用場景,便是結(jié)合AI大模型,來解決曾經(jīng)幾乎“不可能”的事情。

以金融領(lǐng)域?yàn)槔?,其監(jiān)管十分嚴(yán)格。一種常見的情況是,在直播過程中需要人為干預(yù),進(jìn)行監(jiān)聽。所以這種情況下,實(shí)時(shí)生成字幕對(duì)于大部分的金融客戶就很難滿足。

王建成告訴產(chǎn)業(yè)家,保利威的做法是結(jié)合金融客戶的特殊需求和行業(yè)特點(diǎn),做出一種專為金融行業(yè)打造的特殊模型。

這是一種將直播技術(shù)與業(yè)務(wù)結(jié)合的最佳例證。而在AI大模型時(shí)代,在技術(shù)高度不斷刷新的當(dāng)下,真正去解決用戶的實(shí)際問題,對(duì)于音視頻SaaS廠商,或許是一個(gè)更為務(wù)實(shí)的答案。

為什么說焦慮與現(xiàn)實(shí)有時(shí)并不成正比?

一方面,技術(shù)高度的不斷刷新確實(shí)會(huì)帶給人更大的焦慮,但另一方面,從現(xiàn)實(shí)的角度來講,技術(shù)高度的不斷刷新卻并未真正下沉到產(chǎn)業(yè),發(fā)揮真正的價(jià)值。

根據(jù)艾瑞咨詢報(bào)告顯示,在目前實(shí)時(shí)音視頻領(lǐng)域,領(lǐng)跑場景依舊停留在C端,在實(shí)際生產(chǎn)過程中,產(chǎn)業(yè)數(shù)字化的價(jià)值微乎其微。

那么,從技術(shù)的角度出發(fā),音視頻技術(shù)現(xiàn)在究竟發(fā)展到什么程度了?

可以看到的是,騰訊云已經(jīng)能夠?qū)崿F(xiàn)在煤礦、港口場景里,實(shí)時(shí)控制無人駕駛卡車運(yùn)營。這是近兩年較為新鮮的嘗試。在這些場景同樣有所布局的還有聲網(wǎng)。除了更深入產(chǎn)業(yè)側(cè)的工業(yè)領(lǐng)域 ,聲網(wǎng)也在IoT行業(yè)、醫(yī)療健康行業(yè)持續(xù)發(fā)力。

而在大模型未到來之前,遠(yuǎn)程的音視頻連接和操作,無論是技術(shù)還是應(yīng)用場景方面都遠(yuǎn)未達(dá)到成熟。

站在技術(shù)的角度,更具體來講,大模型給音視頻領(lǐng)域帶來的是更大的想象力。

2023年,阿里云智能高級(jí)算法專家劉國棟在深圳的一席演講中提到了一種大模型與小模型結(jié)合的技術(shù)。

在大模型還未出現(xiàn)的時(shí)候,只有小模型。其實(shí),大模型與小模型都有各自的局限。小模型的局限在于其泛化能力比較差。而泛化能力差,通俗來講,就是小模型的理解和生成能力不好。但其優(yōu)點(diǎn)在于,小模型、傳統(tǒng)算法在算法開發(fā)、工程優(yōu)化方面已相對(duì)比較成熟,小模型的訓(xùn)練資源占用少且訓(xùn)練速度快,部署容易,端側(cè)落地性強(qiáng)。

而大模型出現(xiàn)后,這些問題都一一被解決了。而大模型的局限性在于,細(xì)粒度的問題還不能完美處理、容易出現(xiàn)幻覺現(xiàn)象、推理訓(xùn)練成本都比較高等。

因此,大小模型協(xié)同便是最好的解決方案。通過讓大模型和小模型并聯(lián)和相互引導(dǎo)的方式,來優(yōu)化各自的問題。

而對(duì)于大模型與小模型的“協(xié)同”方面,聲網(wǎng)也有自己的理解。對(duì)此,鐘聲向產(chǎn)業(yè)家解釋道,“大模型的參數(shù)很大,需要巨量的數(shù)據(jù)包括高質(zhì)量的數(shù)據(jù)來訓(xùn)練。一個(gè)符合常理的邏輯是,最領(lǐng)先的大模型,其推理能力較強(qiáng),可以通過蒸餾等方法來訓(xùn)練小模型。大模型產(chǎn)生的結(jié)果,具備一定的質(zhì)量,可以用來訓(xùn)練小模型。未來,大小模型應(yīng)該以‘聯(lián)合行動(dòng)’的方式來共同完成任務(wù),在算力、延時(shí)、隱私保護(hù)等方面實(shí)現(xiàn)一種更好的融合?!?/p>

一個(gè)更為遙遠(yuǎn)的暢想是,隨著端上算力的增強(qiáng),有著幾十億參數(shù)的大模型未來也有可能在端上運(yùn)行。屆時(shí),在各個(gè)領(lǐng)域?qū)崿F(xiàn)“實(shí)時(shí)音視頻”則會(huì)成為現(xiàn)實(shí)。

更大的焦慮,更大的想象力

從GPT3.5到GPT4.0,從Runway、Pika到Sora,當(dāng)大模型的價(jià)值鏈不斷升級(jí),那些暫時(shí)還未爬到頂端的企業(yè),還剩下多少“生存空間”?

這是一個(gè)引人深思的發(fā)問。

近兩年,科技界追逐技術(shù)的熱情在不斷高漲。大眾對(duì)于AI的焦慮是更為遙遠(yuǎn)的“生存威脅”,而科技界對(duì)AI焦慮則是由所謂“參數(shù)”和“長文本”所“卷”起來的商業(yè)競爭。

如果聚焦到產(chǎn)業(yè)側(cè),聚焦到更實(shí)際的賽道,不斷刷新的榜單,不斷升級(jí)的參數(shù)、上下文長度,這些對(duì)于音視頻廠商而言意味著什么?

在與鐘聲的對(duì)話中了解到,聲網(wǎng)所追求的是實(shí)時(shí)性。而從目前來看,如果在云端的服務(wù)器上運(yùn)行,最后在傳輸?shù)蕉说脑O(shè)備上,很難實(shí)現(xiàn)“實(shí)時(shí)性”。所以聲網(wǎng)的做法是是在端上進(jìn)行計(jì)算。但客觀來講,端上運(yùn)算的局限是算力不夠。

對(duì)此,鐘聲發(fā)表了一種觀點(diǎn),雖然現(xiàn)在最前沿的技術(shù)都在追求Scaling Law(規(guī)模效應(yīng))支撐下的大模型,但對(duì)于聲網(wǎng)而言,追求極致的小模型意義則要更大一些。首先保證低延時(shí)、低成本,直接讓很小的AI算法在端上發(fā)力,通過極致、精準(zhǔn)的算法來讓音視頻發(fā)揮最大的價(jià)值,低延時(shí)低成本可以為更多需要實(shí)時(shí)互動(dòng)的客戶和用戶釋放出或者創(chuàng)造出巨大的價(jià)值;這方面業(yè)界的關(guān)注度還不夠,但終會(huì)成為焦點(diǎn)。聲網(wǎng)在這方面則做了較為專注的研發(fā)投入。

站在更實(shí)際的角度,如果在云端運(yùn)算,雖然在大算力的支持下運(yùn)行大模型,最終可以得到較好的效果,但現(xiàn)實(shí)情況是,在大多數(shù)的消費(fèi)側(cè)場景,比如社交娛樂,系統(tǒng)響應(yīng)延時(shí)過大,本身就不太像AGI,客戶或用戶也不可能花較高的費(fèi)用來追求響應(yīng)較慢的AGI效果。所以,在端上低延時(shí)低成本的運(yùn)算更為有需求。

同時(shí),鐘聲提出了一種暢想,在音視頻領(lǐng)域,AGI最終會(huì)發(fā)展成端邊云結(jié)合的方式,以平衡算力、延時(shí)、隱私和數(shù)據(jù)保護(hù)等幾個(gè)AI發(fā)展的關(guān)鍵要素。

這是大模型賦予音視頻廠商的想象力,而這種想象力也會(huì)應(yīng)用到更現(xiàn)實(shí)的場景解決更實(shí)際的問題,比如醫(yī)療領(lǐng)域里會(huì)用到的遠(yuǎn)程救治,其實(shí)時(shí)性要求極高,延遲1s都可能威脅到生命。

那么,在當(dāng)下這個(gè)拼技術(shù)刷榜單的大模型時(shí)代,音視頻廠商要如何順應(yīng)AI時(shí)代?

實(shí)際上,近兩年音視頻的發(fā)展趨勢已經(jīng)從關(guān)注技術(shù),走向關(guān)注更為實(shí)際的“降本增效”。以保利威為例,其SaaS訂閱收入達(dá)到90%成績背后,是結(jié)合具體的業(yè)務(wù)來解決實(shí)際用戶的問題。

如果通過大模型所提升的音視頻技術(shù),不再止步于社交和娛樂,而是更為具體的生產(chǎn)環(huán)節(jié),甚至是治病救人,那么也許實(shí)時(shí)音視頻才會(huì)實(shí)現(xiàn)破圈,走向大眾。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

“更大的焦慮,更大的想象力”:音視頻廠商如何闖入AI時(shí)代?

于音視頻廠商而言,企業(yè)要解決的難題是,如何將技術(shù)與用戶連接在一起。

文|產(chǎn)業(yè)家 思杭

編輯|皮爺

2024年初,國內(nèi)的大模型公司還未從上一波“GPT4”的焦慮當(dāng)中緩過來,Sora就已經(jīng)席卷而至。緊接著,所有互聯(lián)網(wǎng)大廠幾乎都“停下手頭工作”,開始在新的領(lǐng)域做出一點(diǎn)成績,從而盡快在市場上發(fā)聲。

但在近期阿里蔡崇信的采訪中,他說道,“中國AI技術(shù)可能要落后美國兩年”。在這種不斷追趕的焦慮背后,一個(gè)引人思索的問題是,國內(nèi)大模型公司追趕的究竟是什么?

站在更為具體的賽道上來看這一問題,作為離Sora最近的賽道——音視頻而言,這種焦慮也在不斷放大。

從GPT3.5到GPT4.0,從Runway、Pika到Sora,當(dāng)大模型的價(jià)值鏈不斷升級(jí),那些暫未爬到頂端的企業(yè),還剩下多少‘生存空間’?

實(shí)際上,于音視頻廠商而言,當(dāng)“追逐技術(shù)”變?yōu)椤白分鹩脩簟?,這種價(jià)值就變得更加具體、更加實(shí)際。從近兩年音視頻廠商的發(fā)力趨勢可以看出,AI雖然是不可錯(cuò)過的大趨勢,但企業(yè)要解決的難題是,如何將技術(shù)與用戶連接在一起。讓大模型發(fā)揮想象力的同時(shí),更要解決用戶的實(shí)際問題。

AI時(shí)代,不斷進(jìn)擊的“音視頻”

2022年,先是釘釘?shù)囊惶住敖M合拳”,緊接著,音視頻PaaS/SaaS廠商也紛紛跟進(jìn),不僅大手筆投入研發(fā),還在AI方向補(bǔ)充彈藥進(jìn)行長遠(yuǎn)布局,自此,圍繞音視頻賽道的“混戰(zhàn)”也正式打響。

音視頻PaaS公司“拍樂云”被收購一事在2022年受到廣泛關(guān)注,收購方正是阿里釘釘。一石激起千層浪,音視頻賽道迅速成為焦點(diǎn)。更為炸裂的消息是,有著視頻會(huì)議開創(chuàng)者Webex架構(gòu)師、網(wǎng)易云信CTO和拍樂云創(chuàng)始人等多個(gè)顯赫頭銜的“趙加雨”,也攜團(tuán)隊(duì)空降釘釘音視頻事業(yè)部的一號(hào)位。

而跟隨趙加雨的這伙人,個(gè)個(gè)都是音視頻領(lǐng)域的得力干將。其中,李備是拍樂云音頻專家,曾有5年WebEx音頻專家工作經(jīng)驗(yàn);章琦,拍樂云首席科學(xué)家,8年WebEx音視頻引擎架構(gòu)師工作經(jīng)驗(yàn)。

所有信號(hào)都指向了阿里布局音視頻賽道的決心。實(shí)際上,阿里在音視頻的布局更早就開始了。2021年11月,釘釘內(nèi)部成立了獨(dú)立的音視頻事業(yè)部,該事業(yè)部成立的初衷便是聚焦在“研究音頻技術(shù)及算法創(chuàng)新,以及探索下一代音視頻會(huì)議形態(tài)”。

釘釘這一槍打響后,長年深耕在音視頻賽道的騰訊云,以及其他PaaS和SaaS廠商,也紛紛從研發(fā)、解決方案、應(yīng)用場景和AI方面增添自己的彈藥庫。

同樣身為互聯(lián)網(wǎng)廠商,音視頻于騰訊而言,可以算是一種“與生俱來”的基因。到2022年,騰訊云的步伐早已到了在技術(shù)側(cè)實(shí)現(xiàn)突破,以及在行業(yè)應(yīng)用上更加細(xì)分的程度。

比如騰訊云將一種能夠遠(yuǎn)程實(shí)時(shí)控制的音視頻技術(shù)方案,應(yīng)用在煤礦、港口場景里的無人駕駛卡車運(yùn)營當(dāng)中。而在此之前,在傳統(tǒng)行業(yè)里實(shí)現(xiàn)遠(yuǎn)程的音視頻連接和操作,無論是技術(shù)還是應(yīng)用場景方面都遠(yuǎn)未達(dá)到成熟。

對(duì)于其他音視頻PaaS/SaaS廠商而言,增加研發(fā)投入則是一種更為直接的方式。

在2022年,除了阿里釘釘?shù)囊惶住敖M合拳”,音視頻賽道里的另一個(gè)重磅消息是,音視頻SaaS第一股“百家云”在納斯達(dá)克敲鐘上市。其2022上半年?duì)I收就達(dá)到了6860萬美元,實(shí)現(xiàn)同比增長65.5%。在2023年其更是凈利潤達(dá)480萬美元,實(shí)現(xiàn)扭虧為盈。而其研發(fā)費(fèi)用更從2021財(cái)年的580萬美元大幅增加到2022財(cái)年的1300萬美元。

實(shí)際上,這種研發(fā)費(fèi)用的驟增不僅僅是底層技術(shù)方面的發(fā)力,還有定制化和AI方面的投入。從財(cái)報(bào)中看,在2022財(cái)年的全年?duì)I收中還增加了一項(xiàng)“定制平臺(tái)開發(fā)服務(wù)”,全年該業(yè)務(wù)的營收達(dá)到了1030萬美元;而AI解決方案的收入也增加了760萬美元。

而與SaaS廠商不同,音視頻PaaS廠商的研發(fā)投入則更重。以聲網(wǎng)為例,根據(jù)其2022年的財(cái)報(bào)顯示,當(dāng)年的全年總營收是1.61億美元,而單是研發(fā)費(fèi)用就達(dá)到了1.1億美元。

那么,這1.1個(gè)億的費(fèi)用具體體現(xiàn)在哪些方面?

2023年,聲網(wǎng)推出“鳳鳴AI引擎”,將AI降噪、AI回聲消除、空間音頻等技術(shù)進(jìn)行了集成;在視頻方向,推出了超高清能力的超分、畫質(zhì)提升、感知編碼、虛擬背景和AR特效等增強(qiáng)觀看體驗(yàn)、臨場感和互動(dòng)表達(dá)能力的實(shí)時(shí)AI技術(shù);也開發(fā)了語音轉(zhuǎn)文字、內(nèi)容審核等AI功能來增加信息提取、傳遞和保存的維度。

這是在AI時(shí)代、大模型時(shí)代下對(duì)智能化的一種響應(yīng)。但羅馬不是一天建成的。于音視頻廠商而言,推出AI相關(guān)的技術(shù)或應(yīng)用場景需要長期的投入。

無論是聲網(wǎng),還是保利威、百家云等其他音視頻PaaS/SaaS廠商,對(duì)于AI的積累都要追溯到幾年前。只是從外界聲音來看,2023年是集中發(fā)力的一年。

以聲網(wǎng)為例,在鳳鳴AI引擎中集成的大部分技術(shù)都源于多年的積累。產(chǎn)業(yè)家向聲網(wǎng)CTO鐘聲了解到,“空間音頻”是鳳鳴AI引擎中集成的技術(shù)。利用AI算法來模擬頭部球面區(qū)域的立體聲場,在更細(xì)微處,甚至能捕捉到人的喜怒哀樂,將這種三維信息提取出來再放到AR增強(qiáng)的場景。從技術(shù)處理的細(xì)節(jié)便可以感知到,它是一種“厚積薄發(fā)”的產(chǎn)物。

實(shí)際上2023年,大模型在國內(nèi)“狂飆”的同時(shí),音視頻廠商更是不可能錯(cuò)過這波風(fēng)口。技術(shù)的長期投入,這一年給音視頻廠商的機(jī)會(huì)是在服務(wù)場景上更深化、更細(xì)致。

最為常見的便是AIGC解決方案的發(fā)布,這也是在市場層面能夠迅速引發(fā)關(guān)注的方式。比如聲網(wǎng)在去年發(fā)布RTE X AIGC 一站式產(chǎn)品能力解決方案;百家云發(fā)布全新AIGC產(chǎn)品“市場易”;騰訊云在音視頻產(chǎn)品矩陣上的智能化升級(jí);保利威發(fā)布AI智能教育解決方案;即構(gòu)推出AI視頻生成應(yīng)用“即構(gòu)數(shù)智人”等等。

而在無數(shù)的聲音背后,大模型給音視頻帶來的實(shí)際價(jià)值是什么?

技術(shù)、落地場景和“大小模型”方案

“到了今天這個(gè)時(shí)代,客戶不會(huì)關(guān)注噱頭,而是更切實(shí)地關(guān)注提高了多少效率,降低了多少成本?!边@是保利威全國售前總經(jīng)理王建成近兩年的感受。

技術(shù)不斷進(jìn)步的同時(shí),服務(wù)場景也正在進(jìn)一步深化。

拋開底層技術(shù),在大模型時(shí)代,如果說真正能在效率上提升,以及成本上有所降低,用戶一定會(huì)在操作體驗(yàn)層面有更強(qiáng)的感知。

那么,更為細(xì)致的應(yīng)用場景,便是結(jié)合AI大模型,來解決曾經(jīng)幾乎“不可能”的事情。

以金融領(lǐng)域?yàn)槔?,其監(jiān)管十分嚴(yán)格。一種常見的情況是,在直播過程中需要人為干預(yù),進(jìn)行監(jiān)聽。所以這種情況下,實(shí)時(shí)生成字幕對(duì)于大部分的金融客戶就很難滿足。

王建成告訴產(chǎn)業(yè)家,保利威的做法是結(jié)合金融客戶的特殊需求和行業(yè)特點(diǎn),做出一種專為金融行業(yè)打造的特殊模型。

這是一種將直播技術(shù)與業(yè)務(wù)結(jié)合的最佳例證。而在AI大模型時(shí)代,在技術(shù)高度不斷刷新的當(dāng)下,真正去解決用戶的實(shí)際問題,對(duì)于音視頻SaaS廠商,或許是一個(gè)更為務(wù)實(shí)的答案。

為什么說焦慮與現(xiàn)實(shí)有時(shí)并不成正比?

一方面,技術(shù)高度的不斷刷新確實(shí)會(huì)帶給人更大的焦慮,但另一方面,從現(xiàn)實(shí)的角度來講,技術(shù)高度的不斷刷新卻并未真正下沉到產(chǎn)業(yè),發(fā)揮真正的價(jià)值。

根據(jù)艾瑞咨詢報(bào)告顯示,在目前實(shí)時(shí)音視頻領(lǐng)域,領(lǐng)跑場景依舊停留在C端,在實(shí)際生產(chǎn)過程中,產(chǎn)業(yè)數(shù)字化的價(jià)值微乎其微。

那么,從技術(shù)的角度出發(fā),音視頻技術(shù)現(xiàn)在究竟發(fā)展到什么程度了?

可以看到的是,騰訊云已經(jīng)能夠?qū)崿F(xiàn)在煤礦、港口場景里,實(shí)時(shí)控制無人駕駛卡車運(yùn)營。這是近兩年較為新鮮的嘗試。在這些場景同樣有所布局的還有聲網(wǎng)。除了更深入產(chǎn)業(yè)側(cè)的工業(yè)領(lǐng)域 ,聲網(wǎng)也在IoT行業(yè)、醫(yī)療健康行業(yè)持續(xù)發(fā)力。

而在大模型未到來之前,遠(yuǎn)程的音視頻連接和操作,無論是技術(shù)還是應(yīng)用場景方面都遠(yuǎn)未達(dá)到成熟。

站在技術(shù)的角度,更具體來講,大模型給音視頻領(lǐng)域帶來的是更大的想象力。

2023年,阿里云智能高級(jí)算法專家劉國棟在深圳的一席演講中提到了一種大模型與小模型結(jié)合的技術(shù)。

在大模型還未出現(xiàn)的時(shí)候,只有小模型。其實(shí),大模型與小模型都有各自的局限。小模型的局限在于其泛化能力比較差。而泛化能力差,通俗來講,就是小模型的理解和生成能力不好。但其優(yōu)點(diǎn)在于,小模型、傳統(tǒng)算法在算法開發(fā)、工程優(yōu)化方面已相對(duì)比較成熟,小模型的訓(xùn)練資源占用少且訓(xùn)練速度快,部署容易,端側(cè)落地性強(qiáng)。

而大模型出現(xiàn)后,這些問題都一一被解決了。而大模型的局限性在于,細(xì)粒度的問題還不能完美處理、容易出現(xiàn)幻覺現(xiàn)象、推理訓(xùn)練成本都比較高等。

因此,大小模型協(xié)同便是最好的解決方案。通過讓大模型和小模型并聯(lián)和相互引導(dǎo)的方式,來優(yōu)化各自的問題。

而對(duì)于大模型與小模型的“協(xié)同”方面,聲網(wǎng)也有自己的理解。對(duì)此,鐘聲向產(chǎn)業(yè)家解釋道,“大模型的參數(shù)很大,需要巨量的數(shù)據(jù)包括高質(zhì)量的數(shù)據(jù)來訓(xùn)練。一個(gè)符合常理的邏輯是,最領(lǐng)先的大模型,其推理能力較強(qiáng),可以通過蒸餾等方法來訓(xùn)練小模型。大模型產(chǎn)生的結(jié)果,具備一定的質(zhì)量,可以用來訓(xùn)練小模型。未來,大小模型應(yīng)該以‘聯(lián)合行動(dòng)’的方式來共同完成任務(wù),在算力、延時(shí)、隱私保護(hù)等方面實(shí)現(xiàn)一種更好的融合?!?/p>

一個(gè)更為遙遠(yuǎn)的暢想是,隨著端上算力的增強(qiáng),有著幾十億參數(shù)的大模型未來也有可能在端上運(yùn)行。屆時(shí),在各個(gè)領(lǐng)域?qū)崿F(xiàn)“實(shí)時(shí)音視頻”則會(huì)成為現(xiàn)實(shí)。

更大的焦慮,更大的想象力

從GPT3.5到GPT4.0,從Runway、Pika到Sora,當(dāng)大模型的價(jià)值鏈不斷升級(jí),那些暫時(shí)還未爬到頂端的企業(yè),還剩下多少“生存空間”?

這是一個(gè)引人深思的發(fā)問。

近兩年,科技界追逐技術(shù)的熱情在不斷高漲。大眾對(duì)于AI的焦慮是更為遙遠(yuǎn)的“生存威脅”,而科技界對(duì)AI焦慮則是由所謂“參數(shù)”和“長文本”所“卷”起來的商業(yè)競爭。

如果聚焦到產(chǎn)業(yè)側(cè),聚焦到更實(shí)際的賽道,不斷刷新的榜單,不斷升級(jí)的參數(shù)、上下文長度,這些對(duì)于音視頻廠商而言意味著什么?

在與鐘聲的對(duì)話中了解到,聲網(wǎng)所追求的是實(shí)時(shí)性。而從目前來看,如果在云端的服務(wù)器上運(yùn)行,最后在傳輸?shù)蕉说脑O(shè)備上,很難實(shí)現(xiàn)“實(shí)時(shí)性”。所以聲網(wǎng)的做法是是在端上進(jìn)行計(jì)算。但客觀來講,端上運(yùn)算的局限是算力不夠。

對(duì)此,鐘聲發(fā)表了一種觀點(diǎn),雖然現(xiàn)在最前沿的技術(shù)都在追求Scaling Law(規(guī)模效應(yīng))支撐下的大模型,但對(duì)于聲網(wǎng)而言,追求極致的小模型意義則要更大一些。首先保證低延時(shí)、低成本,直接讓很小的AI算法在端上發(fā)力,通過極致、精準(zhǔn)的算法來讓音視頻發(fā)揮最大的價(jià)值,低延時(shí)低成本可以為更多需要實(shí)時(shí)互動(dòng)的客戶和用戶釋放出或者創(chuàng)造出巨大的價(jià)值;這方面業(yè)界的關(guān)注度還不夠,但終會(huì)成為焦點(diǎn)。聲網(wǎng)在這方面則做了較為專注的研發(fā)投入。

站在更實(shí)際的角度,如果在云端運(yùn)算,雖然在大算力的支持下運(yùn)行大模型,最終可以得到較好的效果,但現(xiàn)實(shí)情況是,在大多數(shù)的消費(fèi)側(cè)場景,比如社交娛樂,系統(tǒng)響應(yīng)延時(shí)過大,本身就不太像AGI,客戶或用戶也不可能花較高的費(fèi)用來追求響應(yīng)較慢的AGI效果。所以,在端上低延時(shí)低成本的運(yùn)算更為有需求。

同時(shí),鐘聲提出了一種暢想,在音視頻領(lǐng)域,AGI最終會(huì)發(fā)展成端邊云結(jié)合的方式,以平衡算力、延時(shí)、隱私和數(shù)據(jù)保護(hù)等幾個(gè)AI發(fā)展的關(guān)鍵要素。

這是大模型賦予音視頻廠商的想象力,而這種想象力也會(huì)應(yīng)用到更現(xiàn)實(shí)的場景解決更實(shí)際的問題,比如醫(yī)療領(lǐng)域里會(huì)用到的遠(yuǎn)程救治,其實(shí)時(shí)性要求極高,延遲1s都可能威脅到生命。

那么,在當(dāng)下這個(gè)拼技術(shù)刷榜單的大模型時(shí)代,音視頻廠商要如何順應(yīng)AI時(shí)代?

實(shí)際上,近兩年音視頻的發(fā)展趨勢已經(jīng)從關(guān)注技術(shù),走向關(guān)注更為實(shí)際的“降本增效”。以保利威為例,其SaaS訂閱收入達(dá)到90%成績背后,是結(jié)合具體的業(yè)務(wù)來解決實(shí)際用戶的問題。

如果通過大模型所提升的音視頻技術(shù),不再止步于社交和娛樂,而是更為具體的生產(chǎn)環(huán)節(jié),甚至是治病救人,那么也許實(shí)時(shí)音視頻才會(huì)實(shí)現(xiàn)破圈,走向大眾。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。