日韩无码国产精品,国产欧美日韩精品a在线观看高清

文|產(chǎn)業(yè)家思杭

編輯|皮爺

2024年初，國內(nèi)的大模型公司還未從上一波“GPT4”的焦慮當(dāng)中緩過來，Sora就已經(jīng)席卷而至。緊接著，所有互聯(lián)網(wǎng)大廠幾乎都“停下手頭工作”，開始在新的領(lǐng)域做出一點(diǎn)成績，從而盡快在市場上發(fā)聲。

但在近期阿里蔡崇信的采訪中，他說道，“中國AI技術(shù)可能要落后美國兩年”。在這種不斷追趕的焦慮背后，一個(gè)引人思索的問題是，國內(nèi)大模型公司追趕的究竟是什么？

站在更為具體的賽道上來看這一問題，作為離Sora最近的賽道——音視頻而言，這種焦慮也在不斷放大。

從GPT3.5到GPT4.0，從Runway、Pika到Sora，當(dāng)大模型的價(jià)值鏈不斷升級(jí)，那些暫未爬到頂端的企業(yè)，還剩下多少‘生存空間’？

實(shí)際上，于音視頻廠商而言，當(dāng)“追逐技術(shù)”變?yōu)椤白分鹩脩簟?，這種價(jià)值就變得更加具體、更加實(shí)際。從近兩年音視頻廠商的發(fā)力趨勢可以看出，AI雖然是不可錯(cuò)過的大趨勢，但企業(yè)要解決的難題是，如何將技術(shù)與用戶連接在一起。讓大模型發(fā)揮想象力的同時(shí)，更要解決用戶的實(shí)際問題。

AI時(shí)代，不斷進(jìn)擊的“音視頻”

2022年，先是釘釘?shù)囊惶住敖M合拳”，緊接著，音視頻PaaS/SaaS廠商也紛紛跟進(jìn)，不僅大手筆投入研發(fā)，還在AI方向補(bǔ)充彈藥進(jìn)行長遠(yuǎn)布局，自此，圍繞音視頻賽道的“混戰(zhàn)”也正式打響。

音視頻PaaS公司“拍樂云”被收購一事在2022年受到廣泛關(guān)注，收購方正是阿里釘釘。一石激起千層浪，音視頻賽道迅速成為焦點(diǎn)。更為炸裂的消息是，有著視頻會(huì)議開創(chuàng)者Webex架構(gòu)師、網(wǎng)易云信CTO和拍樂云創(chuàng)始人等多個(gè)顯赫頭銜的“趙加雨”，也攜團(tuán)隊(duì)空降釘釘音視頻事業(yè)部的一號(hào)位。

而跟隨趙加雨的這伙人，個(gè)個(gè)都是音視頻領(lǐng)域的得力干將。其中，李備是拍樂云音頻專家，曾有5年WebEx音頻專家工作經(jīng)驗(yàn)；章琦，拍樂云首席科學(xué)家，8年WebEx音視頻引擎架構(gòu)師工作經(jīng)驗(yàn)。

所有信號(hào)都指向了阿里布局音視頻賽道的決心。實(shí)際上，阿里在音視頻的布局更早就開始了。2021年11月，釘釘內(nèi)部成立了獨(dú)立的音視頻事業(yè)部，該事業(yè)部成立的初衷便是聚焦在“研究音頻技術(shù)及算法創(chuàng)新，以及探索下一代音視頻會(huì)議形態(tài)”。

釘釘這一槍打響后，長年深耕在音視頻賽道的騰訊云，以及其他PaaS和SaaS廠商，也紛紛從研發(fā)、解決方案、應(yīng)用場景和AI方面增添自己的彈藥庫。

同樣身為互聯(lián)網(wǎng)廠商，音視頻于騰訊而言，可以算是一種“與生俱來”的基因。到2022年，騰訊云的步伐早已到了在技術(shù)側(cè)實(shí)現(xiàn)突破，以及在行業(yè)應(yīng)用上更加細(xì)分的程度。

比如騰訊云將一種能夠遠(yuǎn)程實(shí)時(shí)控制的音視頻技術(shù)方案，應(yīng)用在煤礦、港口場景里的無人駕駛卡車運(yùn)營當(dāng)中。而在此之前，在傳統(tǒng)行業(yè)里實(shí)現(xiàn)遠(yuǎn)程的音視頻連接和操作，無論是技術(shù)還是應(yīng)用場景方面都遠(yuǎn)未達(dá)到成熟。

對(duì)于其他音視頻PaaS/SaaS廠商而言，增加研發(fā)投入則是一種更為直接的方式。

在2022年，除了阿里釘釘?shù)囊惶住敖M合拳”，音視頻賽道里的另一個(gè)重磅消息是，音視頻SaaS第一股“百家云”在納斯達(dá)克敲鐘上市。其2022上半年?duì)I收就達(dá)到了6860萬美元，實(shí)現(xiàn)同比增長65.5%。在2023年其更是凈利潤達(dá)480萬美元，實(shí)現(xiàn)扭虧為盈。而其研發(fā)費(fèi)用更從2021財(cái)年的580萬美元大幅增加到2022財(cái)年的1300萬美元。

實(shí)際上，這種研發(fā)費(fèi)用的驟增不僅僅是底層技術(shù)方面的發(fā)力，還有定制化和AI方面的投入。從財(cái)報(bào)中看，在2022財(cái)年的全年?duì)I收中還增加了一項(xiàng)“定制平臺(tái)開發(fā)服務(wù)”，全年該業(yè)務(wù)的營收達(dá)到了1030萬美元；而AI解決方案的收入也增加了760萬美元。

而與SaaS廠商不同，音視頻PaaS廠商的研發(fā)投入則更重。以聲網(wǎng)為例，根據(jù)其2022年的財(cái)報(bào)顯示，當(dāng)年的全年總營收是1.61億美元，而單是研發(fā)費(fèi)用就達(dá)到了1.1億美元。

那么，這1.1個(gè)億的費(fèi)用具體體現(xiàn)在哪些方面？

2023年，聲網(wǎng)推出“鳳鳴AI引擎”，將AI降噪、AI回聲消除、空間音頻等技術(shù)進(jìn)行了集成；在視頻方向，推出了超高清能力的超分、畫質(zhì)提升、感知編碼、虛擬背景和AR特效等增強(qiáng)觀看體驗(yàn)、臨場感和互動(dòng)表達(dá)能力的實(shí)時(shí)AI技術(shù)；也開發(fā)了語音轉(zhuǎn)文字、內(nèi)容審核等AI功能來增加信息提取、傳遞和保存的維度。

這是在AI時(shí)代、大模型時(shí)代下對(duì)智能化的一種響應(yīng)。但羅馬不是一天建成的。于音視頻廠商而言，推出AI相關(guān)的技術(shù)或應(yīng)用場景需要長期的投入。

無論是聲網(wǎng)，還是保利威、百家云等其他音視頻PaaS/SaaS廠商，對(duì)于AI的積累都要追溯到幾年前。只是從外界聲音來看，2023年是集中發(fā)力的一年。

以聲網(wǎng)為例，在鳳鳴AI引擎中集成的大部分技術(shù)都源于多年的積累。產(chǎn)業(yè)家向聲網(wǎng)CTO鐘聲了解到，“空間音頻”是鳳鳴AI引擎中集成的技術(shù)。利用AI算法來模擬頭部球面區(qū)域的立體聲場，在更細(xì)微處，甚至能捕捉到人的喜怒哀樂，將這種三維信息提取出來再放到AR增強(qiáng)的場景。從技術(shù)處理的細(xì)節(jié)便可以感知到，它是一種“厚積薄發(fā)”的產(chǎn)物。

實(shí)際上2023年，大模型在國內(nèi)“狂飆”的同時(shí)，音視頻廠商更是不可能錯(cuò)過這波風(fēng)口。技術(shù)的長期投入，這一年給音視頻廠商的機(jī)會(huì)是在服務(wù)場景上更深化、更細(xì)致。

最為常見的便是AIGC解決方案的發(fā)布，這也是在市場層面能夠迅速引發(fā)關(guān)注的方式。比如聲網(wǎng)在去年發(fā)布RTE X AIGC 一站式產(chǎn)品能力解決方案；百家云發(fā)布全新AIGC產(chǎn)品“市場易”；騰訊云在音視頻產(chǎn)品矩陣上的智能化升級(jí)；保利威發(fā)布AI智能教育解決方案；即構(gòu)推出AI視頻生成應(yīng)用“即構(gòu)數(shù)智人”等等。

而在無數(shù)的聲音背后，大模型給音視頻帶來的實(shí)際價(jià)值是什么？

技術(shù)、落地場景和“大小模型”方案

“到了今天這個(gè)時(shí)代，客戶不會(huì)關(guān)注噱頭，而是更切實(shí)地關(guān)注提高了多少效率，降低了多少成本?！边@是保利威全國售前總經(jīng)理王建成近兩年的感受。

技術(shù)不斷進(jìn)步的同時(shí)，服務(wù)場景也正在進(jìn)一步深化。

拋開底層技術(shù)，在大模型時(shí)代，如果說真正能在效率上提升，以及成本上有所降低，用戶一定會(huì)在操作體驗(yàn)層面有更強(qiáng)的感知。

那么，更為細(xì)致的應(yīng)用場景，便是結(jié)合AI大模型，來解決曾經(jīng)幾乎“不可能”的事情。

以金融領(lǐng)域?yàn)槔?，其監(jiān)管十分嚴(yán)格。一種常見的情況是，在直播過程中需要人為干預(yù)，進(jìn)行監(jiān)聽。所以這種情況下，實(shí)時(shí)生成字幕對(duì)于大部分的金融客戶就很難滿足。

王建成告訴產(chǎn)業(yè)家，保利威的做法是結(jié)合金融客戶的特殊需求和行業(yè)特點(diǎn)，做出一種專為金融行業(yè)打造的特殊模型。

這是一種將直播技術(shù)與業(yè)務(wù)結(jié)合的最佳例證。而在AI大模型時(shí)代，在技術(shù)高度不斷刷新的當(dāng)下，真正去解決用戶的實(shí)際問題，對(duì)于音視頻SaaS廠商，或許是一個(gè)更為務(wù)實(shí)的答案。

為什么說焦慮與現(xiàn)實(shí)有時(shí)并不成正比？

一方面，技術(shù)高度的不斷刷新確實(shí)會(huì)帶給人更大的焦慮，但另一方面，從現(xiàn)實(shí)的角度來講，技術(shù)高度的不斷刷新卻并未真正下沉到產(chǎn)業(yè)，發(fā)揮真正的價(jià)值。

根據(jù)艾瑞咨詢報(bào)告顯示，在目前實(shí)時(shí)音視頻領(lǐng)域，領(lǐng)跑場景依舊停留在C端，在實(shí)際生產(chǎn)過程中，產(chǎn)業(yè)數(shù)字化的價(jià)值微乎其微。

那么，從技術(shù)的角度出發(fā)，音視頻技術(shù)現(xiàn)在究竟發(fā)展到什么程度了？

可以看到的是，騰訊云已經(jīng)能夠?qū)崿F(xiàn)在煤礦、港口場景里，實(shí)時(shí)控制無人駕駛卡車運(yùn)營。這是近兩年較為新鮮的嘗試。在這些場景同樣有所布局的還有聲網(wǎng)。除了更深入產(chǎn)業(yè)側(cè)的工業(yè)領(lǐng)域，聲網(wǎng)也在IoT行業(yè)、醫(yī)療健康行業(yè)持續(xù)發(fā)力。

而在大模型未到來之前，遠(yuǎn)程的音視頻連接和操作，無論是技術(shù)還是應(yīng)用場景方面都遠(yuǎn)未達(dá)到成熟。

站在技術(shù)的角度，更具體來講，大模型給音視頻領(lǐng)域帶來的是更大的想象力。

2023年，阿里云智能高級(jí)算法專家劉國棟在深圳的一席演講中提到了一種大模型與小模型結(jié)合的技術(shù)。

在大模型還未出現(xiàn)的時(shí)候，只有小模型。其實(shí)，大模型與小模型都有各自的局限。小模型的局限在于其泛化能力比較差。而泛化能力差，通俗來講，就是小模型的理解和生成能力不好。但其優(yōu)點(diǎn)在于，小模型、傳統(tǒng)算法在算法開發(fā)、工程優(yōu)化方面已相對(duì)比較成熟，小模型的訓(xùn)練資源占用少且訓(xùn)練速度快，部署容易，端側(cè)落地性強(qiáng)。

而大模型出現(xiàn)后，這些問題都一一被解決了。而大模型的局限性在于，細(xì)粒度的問題還不能完美處理、容易出現(xiàn)幻覺現(xiàn)象、推理訓(xùn)練成本都比較高等。

因此，大小模型協(xié)同便是最好的解決方案。通過讓大模型和小模型并聯(lián)和相互引導(dǎo)的方式，來優(yōu)化各自的問題。

而對(duì)于大模型與小模型的“協(xié)同”方面，聲網(wǎng)也有自己的理解。對(duì)此，鐘聲向產(chǎn)業(yè)家解釋道，“大模型的參數(shù)很大，需要巨量的數(shù)據(jù)包括高質(zhì)量的數(shù)據(jù)來訓(xùn)練。一個(gè)符合常理的邏輯是，最領(lǐng)先的大模型，其推理能力較強(qiáng)，可以通過蒸餾等方法來訓(xùn)練小模型。大模型產(chǎn)生的結(jié)果，具備一定的質(zhì)量，可以用來訓(xùn)練小模型。未來，大小模型應(yīng)該以‘聯(lián)合行動(dòng)’的方式來共同完成任務(wù)，在算力、延時(shí)、隱私保護(hù)等方面實(shí)現(xiàn)一種更好的融合?！?/p>

一個(gè)更為遙遠(yuǎn)的暢想是，隨著端上算力的增強(qiáng)，有著幾十億參數(shù)的大模型未來也有可能在端上運(yùn)行。屆時(shí)，在各個(gè)領(lǐng)域?qū)崿F(xiàn)“實(shí)時(shí)音視頻”則會(huì)成為現(xiàn)實(shí)。

更大的焦慮，更大的想象力

從GPT3.5到GPT4.0，從Runway、Pika到Sora，當(dāng)大模型的價(jià)值鏈不斷升級(jí)，那些暫時(shí)還未爬到頂端的企業(yè)，還剩下多少“生存空間”？

這是一個(gè)引人深思的發(fā)問。

近兩年，科技界追逐技術(shù)的熱情在不斷高漲。大眾對(duì)于AI的焦慮是更為遙遠(yuǎn)的“生存威脅”，而科技界對(duì)AI焦慮則是由所謂“參數(shù)”和“長文本”所“卷”起來的商業(yè)競爭。

如果聚焦到產(chǎn)業(yè)側(cè)，聚焦到更實(shí)際的賽道，不斷刷新的榜單，不斷升級(jí)的參數(shù)、上下文長度，這些對(duì)于音視頻廠商而言意味著什么？

在與鐘聲的對(duì)話中了解到，聲網(wǎng)所追求的是實(shí)時(shí)性。而從目前來看，如果在云端的服務(wù)器上運(yùn)行，最后在傳輸?shù)蕉说脑O(shè)備上，很難實(shí)現(xiàn)“實(shí)時(shí)性”。所以聲網(wǎng)的做法是是在端上進(jìn)行計(jì)算。但客觀來講，端上運(yùn)算的局限是算力不夠。

對(duì)此，鐘聲發(fā)表了一種觀點(diǎn)，雖然現(xiàn)在最前沿的技術(shù)都在追求Scaling Law（規(guī)模效應(yīng)）支撐下的大模型，但對(duì)于聲網(wǎng)而言，追求極致的小模型意義則要更大一些。首先保證低延時(shí)、低成本，直接讓很小的AI算法在端上發(fā)力，通過極致、精準(zhǔn)的算法來讓音視頻發(fā)揮最大的價(jià)值，低延時(shí)低成本可以為更多需要實(shí)時(shí)互動(dòng)的客戶和用戶釋放出或者創(chuàng)造出巨大的價(jià)值；這方面業(yè)界的關(guān)注度還不夠，但終會(huì)成為焦點(diǎn)。聲網(wǎng)在這方面則做了較為專注的研發(fā)投入。

站在更實(shí)際的角度，如果在云端運(yùn)算，雖然在大算力的支持下運(yùn)行大模型，最終可以得到較好的效果，但現(xiàn)實(shí)情況是，在大多數(shù)的消費(fèi)側(cè)場景，比如社交娛樂，系統(tǒng)響應(yīng)延時(shí)過大，本身就不太像AGI，客戶或用戶也不可能花較高的費(fèi)用來追求響應(yīng)較慢的AGI效果。所以，在端上低延時(shí)低成本的運(yùn)算更為有需求。

同時(shí)，鐘聲提出了一種暢想，在音視頻領(lǐng)域，AGI最終會(huì)發(fā)展成端邊云結(jié)合的方式，以平衡算力、延時(shí)、隱私和數(shù)據(jù)保護(hù)等幾個(gè)AI發(fā)展的關(guān)鍵要素。

這是大模型賦予音視頻廠商的想象力，而這種想象力也會(huì)應(yīng)用到更現(xiàn)實(shí)的場景解決更實(shí)際的問題，比如醫(yī)療領(lǐng)域里會(huì)用到的遠(yuǎn)程救治，其實(shí)時(shí)性要求極高，延遲1s都可能威脅到生命。

那么，在當(dāng)下這個(gè)拼技術(shù)刷榜單的大模型時(shí)代，音視頻廠商要如何順應(yīng)AI時(shí)代？

實(shí)際上，近兩年音視頻的發(fā)展趨勢已經(jīng)從關(guān)注技術(shù)，走向關(guān)注更為實(shí)際的“降本增效”。以保利威為例，其SaaS訂閱收入達(dá)到90%成績背后，是結(jié)合具體的業(yè)務(wù)來解決實(shí)際用戶的問題。

如果通過大模型所提升的音視頻技術(shù)，不再止步于社交和娛樂，而是更為具體的生產(chǎn)環(huán)節(jié)，甚至是治病救人，那么也許實(shí)時(shí)音視頻才會(huì)實(shí)現(xiàn)破圈，走向大眾。

文|產(chǎn)業(yè)家思杭

編輯|皮爺

站在更為具體的賽道上來看這一問題，作為離Sora最近的賽道——音視頻而言，這種焦慮也在不斷放大。

從GPT3.5到GPT4.0，從Runway、Pika到Sora，當(dāng)大模型的價(jià)值鏈不斷升級(jí)，那些暫未爬到頂端的企業(yè)，還剩下多少‘生存空間’？

AI時(shí)代，不斷進(jìn)擊的“音視頻”

對(duì)于其他音視頻PaaS/SaaS廠商而言，增加研發(fā)投入則是一種更為直接的方式。

那么，這1.1個(gè)億的費(fèi)用具體體現(xiàn)在哪些方面？

而在無數(shù)的聲音背后，大模型給音視頻帶來的實(shí)際價(jià)值是什么？

技術(shù)、落地場景和“大小模型”方案

技術(shù)不斷進(jìn)步的同時(shí)，服務(wù)場景也正在進(jìn)一步深化。

那么，更為細(xì)致的應(yīng)用場景，便是結(jié)合AI大模型，來解決曾經(jīng)幾乎“不可能”的事情。

王建成告訴產(chǎn)業(yè)家，保利威的做法是結(jié)合金融客戶的特殊需求和行業(yè)特點(diǎn)，做出一種專為金融行業(yè)打造的特殊模型。

為什么說焦慮與現(xiàn)實(shí)有時(shí)并不成正比？

那么，從技術(shù)的角度出發(fā)，音視頻技術(shù)現(xiàn)在究竟發(fā)展到什么程度了？

而在大模型未到來之前，遠(yuǎn)程的音視頻連接和操作，無論是技術(shù)還是應(yīng)用場景方面都遠(yuǎn)未達(dá)到成熟。

站在技術(shù)的角度，更具體來講，大模型給音視頻領(lǐng)域帶來的是更大的想象力。

2023年，阿里云智能高級(jí)算法專家劉國棟在深圳的一席演講中提到了一種大模型與小模型結(jié)合的技術(shù)。

因此，大小模型協(xié)同便是最好的解決方案。通過讓大模型和小模型并聯(lián)和相互引導(dǎo)的方式，來優(yōu)化各自的問題。

更大的焦慮，更大的想象力

從GPT3.5到GPT4.0，從Runway、Pika到Sora，當(dāng)大模型的價(jià)值鏈不斷升級(jí)，那些暫時(shí)還未爬到頂端的企業(yè)，還剩下多少“生存空間”？

這是一個(gè)引人深思的發(fā)問。

那么，在當(dāng)下這個(gè)拼技術(shù)刷榜單的大模型時(shí)代，音視頻廠商要如何順應(yīng)AI時(shí)代？

歷史搜索全部刪除

熱門搜索

“更大的焦慮，更大的想象力”：音視頻廠商如何闖入AI時(shí)代？

AI時(shí)代，不斷進(jìn)擊的“音視頻”

技術(shù)、落地場景和“大小模型”方案

更大的焦慮，更大的想象力

評(píng)論

“更大的焦慮，更大的想象力”：音視頻廠商如何闖入AI時(shí)代？

AI時(shí)代，不斷進(jìn)擊的“音視頻”

技術(shù)、落地場景和“大小模型”方案

更大的焦慮，更大的想象力

“更大的焦慮，更大的想象力”：音視頻廠商如何闖入AI時(shí)代？

AI時(shí)代，不斷進(jìn)擊的“音視頻”

技術(shù)、落地場景和“大小模型”方案

更大的焦慮，更大的想象力

評(píng)論

“更大的焦慮，更大的想象力”：音視頻廠商如何闖入AI時(shí)代？

AI時(shí)代，不斷進(jìn)擊的“音視頻”

技術(shù)、落地場景和“大小模型”方案

更大的焦慮，更大的想象力

“更大的焦慮，更大的想象力”：音視頻廠商如何闖入AI時(shí)代？

AI時(shí)代，不斷進(jìn)擊的“音視頻”

技術(shù)、落地場景和“大小模型”方案

更大的焦慮，更大的想象力

“更大的焦慮，更大的想象力”：音視頻廠商如何闖入AI時(shí)代？

AI時(shí)代，不斷進(jìn)擊的“音視頻”

技術(shù)、落地場景和“大小模型”方案

更大的焦慮，更大的想象力