文|智能相對論 陳選濱
前不久,字節(jié)跳動旗下火山引擎組了一個局——視頻云科技原力峰會,并拉上了阿里云、騰訊云國內(nèi)兩大云廠商,聯(lián)合發(fā)布了一項(xiàng)“超低延時直播協(xié)議信令標(biāo)準(zhǔn)”。
基于這個新標(biāo)準(zhǔn),阿里云、騰訊云以及火山引擎共同為視頻直播行業(yè)首次定義了直播“客戶端-服務(wù)器”信令交互流程,使得傳統(tǒng)直播技術(shù)3至6秒的延時縮短到了1秒以內(nèi),最快可達(dá)到500毫秒。且不同技術(shù)供應(yīng)商在一套標(biāo)準(zhǔn)方案下更加方便互通,行業(yè)參與者使用一套SDK(軟件開發(fā)工具包)即可無縫切換各種供應(yīng)商的產(chǎn)品。
盡管這并非一次業(yè)務(wù)合作,而是技術(shù)共建。但,從某種程度來看,在視頻云技術(shù)領(lǐng)域,阿里、騰訊、字節(jié)跳動已經(jīng)有意加速互聯(lián)網(wǎng)的“拆墻行動”,由新BAT格局引領(lǐng)、聚焦到視頻云,更是成為接下來互聯(lián)網(wǎng)發(fā)展的重磅焦點(diǎn)。
更低的延時、更協(xié)同的技術(shù)標(biāo)準(zhǔn)......從這一次標(biāo)準(zhǔn)發(fā)布來看,視頻云背后的技術(shù)動向已經(jīng)預(yù)示了一個泛視頻時代的來臨,不惜讓阿里、騰訊以及字節(jié)跳動三大巨頭放下了“對立意識”,走向全新的競合關(guān)系。
01 越底層,越標(biāo)準(zhǔn)
“廣泛的商業(yè)場景內(nèi)容正在從圖文走向視頻。”在此次"超低延時直播協(xié)議信令標(biāo)準(zhǔn)"發(fā)布上,火山引擎總經(jīng)理譚待提出判斷。
而這一判斷在大數(shù)據(jù)的佐證下也更加清晰。根據(jù)QuestMobile發(fā)布的《2021中國移動互聯(lián)網(wǎng)年度大報(bào)告》顯示,互聯(lián)網(wǎng)場景中的視頻內(nèi)容增長勢頭迅猛,以短視頻為代表,全網(wǎng)用戶11.74億,時長占比25.7%,已經(jīng)成為了占據(jù)人們網(wǎng)絡(luò)時間最長的行業(yè)。
跳出了短視頻,還有中長視頻、直播等一系列基于視頻化的內(nèi)容輸出與交互模式,都已經(jīng)成為當(dāng)前互聯(lián)網(wǎng)服務(wù)的主流形態(tài)。
艾瑞研究院副總經(jīng)理徐樊磊在去年的Imagine阿里云視頻云全景創(chuàng)新峰會上提到一個觀點(diǎn):視頻不應(yīng)該被看作一個單獨(dú)的行業(yè),就像云計(jì)算同樣不該被看作一個單獨(dú)的行業(yè),它們都將滲透到各個行業(yè)、各個場景。
可以預(yù)見,隨著視頻化應(yīng)用的滲透與擴(kuò)展,未來將是一個泛視頻時代。而越是底層的支持,對于標(biāo)準(zhǔn)化的需求也就越高——當(dāng)一項(xiàng)技術(shù)發(fā)展成為一個通用形態(tài),用的人多,做的人也多,流程之間的標(biāo)準(zhǔn)化也就愈發(fā)關(guān)鍵。
眾所周知,當(dāng)前視頻行業(yè)采用WebRTC技術(shù)是谷歌在2011年開源的一個API,但并沒有一套標(biāo)準(zhǔn)化的信令交互流程。這也就導(dǎo)致了不同廠商之間都有著自家的一套客戶端與服務(wù)器的交互邏輯,存在著流程上的差異。
比如,此前的信令流程就特別繁雜,標(biāo)準(zhǔn)WebRTC的信令往往需要經(jīng)過SDP交換,ICE交互,DTLS握手之后才能傳輸流媒體數(shù)據(jù),這導(dǎo)致了直播首幀耗時嚴(yán)重惡化,非常不流暢。
對于這個問題,各家都在提出自己的優(yōu)化方案,比如騰訊云就是通過miniSDP和0-RTT的結(jié)合來大幅減少信令耗時,提升信令交互成功率。但,這種優(yōu)化方案如果不能在行業(yè)內(nèi)形成統(tǒng)一的標(biāo)準(zhǔn),那么各家的解決方式不一樣,所帶來的優(yōu)化體驗(yàn)還是非常有限的。
因此,隨著視頻化應(yīng)用的滲透率越來越高,對于底層技術(shù)標(biāo)準(zhǔn)化的共識也就越強(qiáng)烈。但,最終這種標(biāo)準(zhǔn)化能實(shí)現(xiàn)到什么程度,還得看未來市場的發(fā)展。當(dāng)前,不管是阿里、騰訊還是字節(jié)跳動,之所以在這個節(jié)點(diǎn)上發(fā)布新標(biāo)準(zhǔn),除了在技術(shù)共建方面初步達(dá)成共識之外,最多的考慮主要還是對自家技術(shù)能力和行業(yè)影響力的展示,也就是“秀肌肉”。
簡而言之,三大巨頭的“共識”不僅僅只是技術(shù)標(biāo)準(zhǔn)化,更有相互“搭臺”突顯自家技術(shù)優(yōu)勢之意。
02 拼技術(shù)的周期到了?
徐樊磊認(rèn)為,云服務(wù)市場的需求周期在于前期主要看成本,后期則看能力。
那么,從三大巨頭的技術(shù)共建來看,視頻云作為云服務(wù)的一個焦點(diǎn)領(lǐng)域,儼然已經(jīng)進(jìn)入到了看能力的后期階段。
技術(shù)以及技術(shù)帶來的突破價值也是當(dāng)前各大云廠商講得最多的一個話題。
技術(shù)的標(biāo)準(zhǔn)化是一方面。就在火山引擎召開視頻云科技原力峰會的前三天,騰訊云便聯(lián)合了中國信通院發(fā)布《超低延時直播白皮書》,“搶先”為超低延時直播技術(shù)標(biāo)準(zhǔn)化奠定基礎(chǔ),從技術(shù)層面拿下行業(yè)創(chuàng)新的話語權(quán)。
但,在拼技術(shù)的賽道上,“先人一步”還不足以說明什么,最關(guān)鍵的還得“勝人一籌”。簡單來說,技術(shù)所帶來的成果展現(xiàn)最為重要,也是這一周期內(nèi)市場最想看到的云廠商差距與優(yōu)勢。
當(dāng)前視頻云技術(shù)所要為行業(yè)帶來的變革主要聚焦在兩方面:
一是“數(shù)量”問題,即解決視頻應(yīng)用的規(guī)?;涞貑栴},比如如何降低視頻創(chuàng)作的門檻,保證視頻內(nèi)容的大規(guī)模產(chǎn)出,拉動全民視頻消費(fèi)等等。
從這個角度來看,快手、抖音等短視頻平臺同步推出的云端剪輯工具,如云剪、剪映等就屬于一個基礎(chǔ)的視頻云解決方案之一。
再深入一點(diǎn),又比如冬奧會期間,央視體育新媒體和總臺技術(shù)團(tuán)隊(duì)聯(lián)合阿里云視頻云、阿里巴巴達(dá)摩院打造的智能生產(chǎn)工具“AI云智剪”,依托AI技術(shù)的引入,能在比賽完成的第一時間實(shí)現(xiàn)對比賽視頻內(nèi)容的多維度解析,生成精彩素材,并創(chuàng)作出相應(yīng)的主題視頻,為人們帶來及時的視頻化內(nèi)容。
二是“質(zhì)量”問題,即通過技術(shù)突破開拓視頻應(yīng)用邊界,帶來更多元化的視頻化體驗(yàn),比如如何創(chuàng)新視頻的交互模式等等。
阿里云視頻云在冬奧會上基于AliRTC(音視頻通信技術(shù))推出的云上創(chuàng)新解決方案——阿里云聚“Alibaba Cloud ME”,就是視頻交互模式的一次應(yīng)用試探。
呈現(xiàn)出來的全息形態(tài)之所以如此真實(shí)并能保證實(shí)時動態(tài)交互,就在于阿里云視頻云視頻編碼與增強(qiáng)技術(shù)團(tuán)隊(duì)提出了一種結(jié)合可變形卷積的稠密殘差連接網(wǎng)絡(luò)結(jié)構(gòu),極大提升了窄帶高清產(chǎn)品對視頻的轉(zhuǎn)碼效果。
不可置否,在今年的冬奧會上,阿里云視頻云著實(shí)是用技術(shù)秀了一把“肌肉”。
對于整個視頻云領(lǐng)域而言,這也是不可避免的趨勢——拼技術(shù),還要拼出創(chuàng)新度、拼出亮眼的效果,就如同視頻本身所帶給人們的視覺沖擊感一樣,都是接下來云服務(wù)廠商角力的關(guān)鍵。
03 產(chǎn)業(yè)的格局已經(jīng)松動
站在今天的視角來看,「視頻化」的想象力是無限的。這種想象能實(shí)現(xiàn)多少,本身也就取決于廠商的技術(shù)能力。
但,可以確定的是,伴隨著技術(shù)的持續(xù)迭代,視頻化的一步步升級,產(chǎn)業(yè)的格局也在一點(diǎn)一點(diǎn)的松動,發(fā)生變革。
這種松動信號,在百度智能云的“智能視頻云3.0全景圖”中也能有所預(yù)見。
根據(jù)介紹,百度智能云基于元學(xué)習(xí)-遷移學(xué)習(xí)的視頻生成技術(shù)可根據(jù)需求快速定制不同風(fēng)格的高質(zhì)量視頻,并同時結(jié)合虛擬數(shù)字人形象生成與語音合成、唇動等技術(shù),低成本制作形象豐富靈動、線上線下多端覆蓋的的數(shù)字人,由此應(yīng)用到媒體主持、金融客服、文娛偶像等場景中。
同樣是在今年冬奧會上,“百度智能云曦靈”團(tuán)隊(duì)打造的AI手語主播就是一個已經(jīng)落地的應(yīng)用。
這種「視頻化」的多元應(yīng)用就已經(jīng)不僅僅是對一塊屏幕表現(xiàn)力的改革,而是對整個產(chǎn)業(yè)的基礎(chǔ)邏輯的變革——生產(chǎn)力的轉(zhuǎn)變。
從這個角度來看,我們可以發(fā)現(xiàn),負(fù)責(zé)內(nèi)容生產(chǎn)、導(dǎo)播、交互的主體已經(jīng)開始向AI中臺以及虛擬數(shù)字人轉(zhuǎn)移,視頻云技術(shù)的應(yīng)用使得“它們”具備了更強(qiáng)的表現(xiàn)力和規(guī)模化落地的條件。
在本屆冬奧會上,阿里云的“AI云智剪”就已經(jīng)自動化處理了200+場比賽,生產(chǎn)素材片段達(dá)3萬段以上。而像百度AI手語主播這樣活躍在冬奧會各個場景的虛擬數(shù)字人也多達(dá)將近30個,其中就包括了騰訊的“聆語”、科大訊飛的“愛加”、小冰公司的“夏語冰”等等。
在這些虛擬數(shù)字人的背后,正是視頻云技術(shù)的創(chuàng)新與應(yīng)用。
不要低估了視頻云。
在《視頻云發(fā)展趨勢洞察》報(bào)告中,IDC認(rèn)為,數(shù)字化時代,從商業(yè)活動到社會生活,視頻數(shù)據(jù)已經(jīng)成為連接個人、家庭、社區(qū)乃至社會的重要紐帶。IDC預(yù)測,到2025年中國視頻云市場規(guī)模更將達(dá)到314億美元。
不管是從市場潛力還是應(yīng)用前景來看,視頻云都充滿巨大的想象空間。
也不枉阿里云、騰訊云、火山引擎、百度智能云等各大云廠商紛紛下場,走向競合!