文|數(shù)智前線 徐鑫
編輯|任曉漁
過去一個月,稱得上文生視頻大模型月。
愛詩科技PixVerse、快手可靈、Luma AI的Dream Machine、Runway的Gen-3 Alpha、開源項目Open-Sora、谷歌DeepMind的V2A,一眾產(chǎn)品迎來發(fā)布更新潮。
令不少業(yè)內(nèi)人士驚訝的是,國內(nèi)企業(yè)在短短幾個月時間中拿出了一些產(chǎn)品。快手可靈文生視頻大模型,作為全球第一個可公開試用的生成時長超過1分鐘的產(chǎn)品,節(jié)奏甚至走在了Sora的前面。
此前,Sora橫空出世時,國內(nèi)AI圈人士表現(xiàn)出了濃重的悲觀情緒。當(dāng)時他們認(rèn)為Sora加劇了中外的差距,國內(nèi)與海外有了明顯代差,且國內(nèi)形成Sora類的產(chǎn)品還遙遙無期。
現(xiàn)在,文生視頻賽道國產(chǎn)AI正加速趕上來。人工智能企業(yè)精準(zhǔn)學(xué)AI技術(shù)負(fù)責(zé)人張寧告訴數(shù)智前線,個中緣由在于現(xiàn)在技術(shù)路線已沒有秘密,而視頻生成賽道目前階段對算力要求并不及大語言模型,可能在千卡集群規(guī)模,這對國內(nèi)企業(yè)不構(gòu)成掣肘。
數(shù)智前線還觀察到,除了文生視頻大模型領(lǐng)域,在非Sora路線的視頻生成應(yīng)用,國內(nèi)有不少企業(yè)在產(chǎn)品化和價值驗證上也邁開了步子,“應(yīng)用驅(qū)動,非常有生機”。
行業(yè)很熱鬧,不過業(yè)內(nèi)也坦言,文生視頻大模型在產(chǎn)品一致性、生成時長等角度仍有待進(jìn)步,行業(yè)仍未迎來ChatGPT時刻。
01 國內(nèi)文生視頻能力追趕海外
6月6日,快手的文生視頻大模型可靈發(fā)布,一口氣把視頻生成的時長提到了2分鐘級。
在線上開放版本里,用戶輸入開放式文本描述,等待幾分鐘就能生成時長5秒,幀率30fps,分辨率1080p,且支持多種寬高比的視頻。21日,可靈的功能再度更新,上線了圖生視頻和視頻時間延長功能,用戶添加更多描述,據(jù)稱最長能夠生成長達(dá)3分鐘的視頻。
快手官方將可靈定義為“首個效果對標(biāo) Sora且面向用戶開放的文生視頻大模型”,對比今年2月引爆賽道的Sora,目前OpenAI仍沒有推出公開可適用產(chǎn)品,目前對外展示的視頻最長生成時間也僅為60秒水平。
快手可靈的能力,引發(fā)了業(yè)界的廣泛關(guān)注。截至6月26日,有超過18萬人在快影的排隊列表里等待試用。這種熱度可能快手官方也沒有意料到。有一個插曲,快手視覺生成與互動中心負(fù)責(zé)人萬鵬飛出席北京智源大會時說受到了不少關(guān)注,他看起來頗不習(xí)慣。論壇主持人打趣讓他“盡快習(xí)慣”。
在社交媒體上,可靈收到了海內(nèi)外的不少好評?!案杏X無論是畫質(zhì)、運動幅度、人物、場景一致性上完全不輸sora,可靈的生成質(zhì)量是現(xiàn)在普通用戶能接觸到的天花板”,一位AI行業(yè)人士不吝稱贊。
可靈的出現(xiàn)明顯提振了國內(nèi)文生視頻賽道的士氣。
實際上不止是可靈,過去幾個月里,國內(nèi)文生視頻賽道上的進(jìn)展不小,多家企業(yè)都推出了各類文生視頻模型產(chǎn)品。
比如,愛詩科技的Pixverse也是國內(nèi)出品,愛詩科技核心團(tuán)隊是此前的字節(jié)視覺技術(shù)團(tuán)隊而來。4月,生數(shù)科技發(fā)布文生視頻大模型Vidu,可根據(jù)文本描述直接生成長達(dá)16秒、分辨率高達(dá)1080P的高清視頻內(nèi)容。一個月前,騰訊也發(fā)布混元最新一代基于DiT架構(gòu)的視頻生成模型,能生成16秒視頻,預(yù)計今年第三季度將推出的下一代文生視頻模型,可生成30秒以上視頻。
在一眾產(chǎn)品中,為什么國內(nèi)大廠并不是特別有錢的快手能做到產(chǎn)品化?
一位資深人士認(rèn)為,國內(nèi)加速發(fā)展在于文生視頻賽道自從Sora驗證了Scalling Law之后,技術(shù)上已經(jīng)沒有了秘密。
愛詩科技創(chuàng)始人王長虎表示,Sora橫空出世生成了新語言。Sora最重要的貢獻(xiàn)是驗證了視頻生成的規(guī)模定律,模型越大,可用的優(yōu)質(zhì)數(shù)量數(shù)據(jù)越多,產(chǎn)生的效果更好。
過去十年,Diffusion技術(shù)支撐了AIGC圖像視頻生成的發(fā)展。此前視覺生成擴(kuò)散模型主要基于 U-Net 架構(gòu),而Sora采取了Diffusion+Transformer架構(gòu)(也即業(yè)界提出的DiT架構(gòu)),去掉了U-NET架構(gòu),同時利用了大語言模型幫助增強,以及做訓(xùn)練數(shù)據(jù)的精細(xì)化達(dá)標(biāo)。這個技術(shù)也使得眾多視頻生成能力進(jìn)一步提升。
除此之外,精準(zhǔn)學(xué)張寧告訴數(shù)智前線,訓(xùn)練文生視頻大模型對算力的需求沒有大語言模型那么大,也是國內(nèi)在模型能力上快速追平的原因?!爱?dāng)下的生成時長和能力,需要的算力可能在千卡規(guī)模,比大語言模型小很多,現(xiàn)在GPT-4訓(xùn)練時需要的集群規(guī)模在3.2萬張卡水平”。
02 應(yīng)用驅(qū)動的另一股流向
視頻生成領(lǐng)域,另一股趨勢也頗為明顯。在應(yīng)用驅(qū)動下,不少企業(yè)已經(jīng)把視頻生成技術(shù)形成產(chǎn)品和解決方案,去解決行業(yè)問題。
6月21日,華為盤古大模型5.0發(fā)布,其中多模態(tài)能力里就包括了視頻生成技術(shù)。華為一貫強調(diào)大模型技術(shù)要解決行業(yè)難題,在視頻生成技術(shù)上也是如此。
華為常務(wù)董事、華為云CEO張平安介紹,視頻生成技術(shù)應(yīng)用到了自動駕駛的訓(xùn)練環(huán)節(jié)。自動駕駛應(yīng)用里的視頻生成,最怕天馬行空。比如多個行駛視角的視頻合并時,車子可能會莫名其妙消失,這樣的視頻明顯不能用于自動駕駛算法訓(xùn)練。
盤古5.0基于自研的可控時空生成技術(shù),能理解物理規(guī)律,大規(guī)模的生成和實際場景相一致的駕駛視頻數(shù)據(jù)。像是生成的雨天的汽車行駛視頻里,車子的尾燈都是開啟的。這代表模型通過對海量視頻數(shù)據(jù)的學(xué)習(xí),學(xué)習(xí)到了雨天開車應(yīng)該開車燈。目前華為沒有透露這種生成能力的技術(shù)路線。
另一些企業(yè),則集成了大模型的能力,根據(jù)文字組裝視頻,幫助一些B端企業(yè)實現(xiàn)更低門檻創(chuàng)作各類視頻。
特看科技CEO樂乘告訴數(shù)智前線,他們推出視頻AIGC生成平臺,主要是想幫國內(nèi)出海商家和海外本土企業(yè)降低B端廣告營銷視頻制作門檻。這種做法與基于文字從0~1生成畫面的類Sora產(chǎn)品不是一回事。
Sora基于文字憑空生成視頻,而特看的文生視頻工具,接入了海外主流的大語言模型和TTS及多模態(tài)大模型。大模型學(xué)習(xí)爆款視頻的文本結(jié)構(gòu),生成適合商家產(chǎn)品的文案和腳本,之后自動與商家提供的產(chǎn)品素材匹配,一鍵生成視頻。
這是在應(yīng)用層的嘗試。它的Know-How則在于,如何把不同的模型銜接在一起,并實現(xiàn)流暢工作的工程能力。比如在線合成、在線編輯的流暢程度,數(shù)字人的口型和內(nèi)容的匹配吻合,動作和畫面如何組合等。
另外面向B端可用的視頻生成產(chǎn)品,也重視內(nèi)容的可控性,特看的應(yīng)用從腳本生成到素材匹配,每個環(huán)節(jié)都支持用戶在線編輯調(diào)整,“Sora對我們是增強作用,比如視頻某個鏡頭不行,我們未來可以接入它,用Sora生成片段去填充?!睒烦私榻B。
魔琺科技創(chuàng)始人柴金祥則從培訓(xùn)、電商、金融、快消、廣電等企業(yè)級場景里,企業(yè)對高質(zhì)量、可編輯、且能精準(zhǔn)傳遞信息的內(nèi)容需求出發(fā),推出有言AIGC一站式3D 視頻創(chuàng)作平臺。
“以往拍攝一條高質(zhì)量3D動畫產(chǎn)品,成本按照秒來計算,周期卻要幾個月,幾十萬成本也下不來。”柴金祥說,他們拆解了3D內(nèi)容所包含的各類要素,將制作3D視頻的流程固化成了軟件化的工業(yè)產(chǎn)線。
比如面向產(chǎn)品發(fā)布會、匯報視頻,知識分享等不同場景,需求方可以調(diào)整3D形象的性別、面部特征、頭發(fā)顏色、外觀、服飾、配飾等各種細(xì)節(jié),搭配上不同的場景素材。大語言模型、TTS模型的能力被集成到系統(tǒng)里,與此前搭配的素材組合,生成符合需求、內(nèi)容可控的高質(zhì)量3D視頻。
從應(yīng)用層發(fā)力,產(chǎn)品在企業(yè)級場景應(yīng)用和落地速度也推進(jìn)很快。比如魔琺科技介紹,目前在教育、培訓(xùn)、文旅、政務(wù)、金融、3C、快消等多個行業(yè)都有頭部企業(yè)在用他們的產(chǎn)品,已經(jīng)完成了價值驗證。而特看科技也透露,一些出海企業(yè)如安克等,已使用這款產(chǎn)品來做網(wǎng)頁和社媒推廣的視頻。
基于大模型的能力往行業(yè)和應(yīng)用層挖,“模型崩了應(yīng)用也不能用了,大模型升級后應(yīng)用的效果也會增強,比如隨著模型推理的能力增強,生成的速度會越來越快,價格可能也會變便宜,文案質(zhì)量和視頻的質(zhì)量也越來越高。”樂乘說。
03 熱鬧之下,行業(yè)仍需跨越鴻溝
國產(chǎn)AI能力加速追趕之外,不得不說整個6月里賽道的另一個特征——產(chǎn)品井噴潮。巨頭谷歌、明星公司Runway、新晉創(chuàng)企Luma AI,再到國內(nèi)的短視頻企業(yè)快手,都推出了產(chǎn)品或發(fā)布了更新。
比如硅谷創(chuàng)業(yè)公司Luma AI推出的Dream Machine,可基于文字或圖片輸入,在120 秒內(nèi)生成長度為5秒的高質(zhì)量視頻。推出后不少試用者就稱在能力上吊打了老牌AI企業(yè)Runway的文生視頻模型Gen-2。
幾天后,Runway馬上找回了場子,它宣布即將推出新模型Gen-3 Alpha,相比上一代的Gen-2在保真度、一致性和運動表現(xiàn)方面有重大改進(jìn)。并且它支持多種創(chuàng)作方式,包括文本到視頻(T2V)、圖像到視頻(I2V)和文本到圖像(T2I) 等能力。雖然未開放試用,但Runway在官網(wǎng)釋出了不少精彩的視頻。
目前,廠商們都沒有公布文生視頻模型的參數(shù)量級,多是模型即產(chǎn)品模式,主要圍繞生成視頻的時長、視頻的分辨率等指標(biāo)展開。分鐘級的內(nèi)容生成能力,之前Sora是獨苗,快手可靈推出后,一下子刷新了這個指標(biāo)。已公布產(chǎn)品里,騰訊此前宣布過文生視頻模型生成時長達(dá)到了16秒,三季度要到20秒。其他各家目前的產(chǎn)品看還停在10秒以內(nèi) 。
另外,各家的產(chǎn)品化階段和對公眾可用的進(jìn)度也不一。
這種你追我趕的架勢,看起來與大語言模型領(lǐng)域的內(nèi)卷游戲如出一轍。Sora的DiT路線驗證了文生視頻領(lǐng)域的Scaling law之后,文生視頻賽道底層模型的未來走向也變得明了。
樂乘認(rèn)為,Sora和它的追隨者們,后續(xù)的競爭態(tài)勢會跟現(xiàn)在大語言模型一樣。大廠的閉源版產(chǎn)品+開源版,大家一起卷,能力逐漸拉平趨同。
目前行業(yè)里開源產(chǎn)品的能力也在提升。今年3月18日,潞晨科技旗下Colossal-AI團(tuán)隊開源了其Open-Sora 1.0視頻生成模型,包括模型權(quán)重、訓(xùn)練源代碼和詳細(xì)的架構(gòu),目前在GitHub上獲得超過19.6k的星標(biāo)。
潞晨科技Open-Sora負(fù)責(zé)人申琛惠提到,Open-Sora開源項目,經(jīng)過迭代更新,目前版本能單次生成大概20秒的視頻,針對于最初版本只能生成2秒,有了顯著的提升,基于之前視頻生成的延續(xù)性生成可以長達(dá)數(shù)分鐘。
她也提到了開源項目模型Demo和OpenAI沒有辦法去比?!癘penAI使用到大概2000-4000個H100的GPU,花費5000萬美元到2億美元的訓(xùn)練成本,我們用了大概1萬美金這樣的范圍成本進(jìn)行實驗”。
值得一提的是,快手可靈推出后,已經(jīng)有不少人士在關(guān)注能否“開源白嫖”。萬鵬飛出席北京智源現(xiàn)場兩次被提問模型的開源打算。他回應(yīng)稱,他們暫時不考慮開源,目前已經(jīng)放出了一些關(guān)鍵的判斷和設(shè)計,未來也會把一些硬核的東西逐步釋放出來,大家一起交流學(xué)習(xí)。
當(dāng)下業(yè)界普遍意識到,文生視頻產(chǎn)品距離商用仍然有不小的鴻溝需要跨越。
一個突出的問題是效果不穩(wěn)定,有人將之類比為“抽卡”?!霸谙薅ǖ恼Z句和限定的訓(xùn)練樣本內(nèi),可以獲得很好的效果,但是一超過邊界就會天馬行空,甚至群魔亂舞,超越人類常識和認(rèn)知?!币晃蝗耸渴褂煤笤u價。
為了減少“抽卡”,企業(yè)也在想辦法提升體驗,比如愛詩科技用到了圖生視頻這種“墊圖”的方法。王長虎提到,如果用文生視頻,需要嘗試 25 次才能生成一次可用的,文生圖每生成 5 次就能有一次可用的,再用這張圖通過技術(shù)把它動起來,抽卡成功概率就從 1/25 提升到了 1/10。
另外,如何對運動規(guī)律和物理世界實現(xiàn)更好的建模,如何生成更長的可用視頻,以及如何能夠表達(dá)鏡頭語言,生成多鏡頭內(nèi)容,都是未來AI視頻要解決的問題。業(yè)界已有共識,目前視頻生成還沒有到ChatGPT階段。
“視頻生成模型目前還處于一個相對早期的發(fā)展階段,其情形有點類似于視頻領(lǐng)域的GPT-2時期。市場上尚未出現(xiàn)一個完全成熟且廣泛可用的視頻生成應(yīng)用。”潞晨科技創(chuàng)始人兼董事長尤洋今年4月指出。