国产亚洲精品观看91在线,国产成a人片777777久久,国产交换精品一区二一区三区

文|數(shù)智前線徐鑫

編輯|任曉漁

過去一個月，稱得上文生視頻大模型月。

愛詩科技PixVerse、快手可靈、Luma AI的Dream Machine、Runway的Gen-3 Alpha、開源項目Open-Sora、谷歌DeepMind的V2A，一眾產(chǎn)品迎來發(fā)布更新潮。

令不少業(yè)內(nèi)人士驚訝的是，國內(nèi)企業(yè)在短短幾個月時間中拿出了一些產(chǎn)品。快手可靈文生視頻大模型，作為全球第一個可公開試用的生成時長超過1分鐘的產(chǎn)品，節(jié)奏甚至走在了Sora的前面。

此前，Sora橫空出世時，國內(nèi)AI圈人士表現(xiàn)出了濃重的悲觀情緒。當(dāng)時他們認(rèn)為Sora加劇了中外的差距，國內(nèi)與海外有了明顯代差，且國內(nèi)形成Sora類的產(chǎn)品還遙遙無期。

現(xiàn)在，文生視頻賽道國產(chǎn)AI正加速趕上來。人工智能企業(yè)精準(zhǔn)學(xué)AI技術(shù)負(fù)責(zé)人張寧告訴數(shù)智前線，個中緣由在于現(xiàn)在技術(shù)路線已沒有秘密，而視頻生成賽道目前階段對算力要求并不及大語言模型，可能在千卡集群規(guī)模，這對國內(nèi)企業(yè)不構(gòu)成掣肘。

數(shù)智前線還觀察到，除了文生視頻大模型領(lǐng)域，在非Sora路線的視頻生成應(yīng)用，國內(nèi)有不少企業(yè)在產(chǎn)品化和價值驗證上也邁開了步子，“應(yīng)用驅(qū)動，非常有生機”。

行業(yè)很熱鬧，不過業(yè)內(nèi)也坦言，文生視頻大模型在產(chǎn)品一致性、生成時長等角度仍有待進(jìn)步，行業(yè)仍未迎來ChatGPT時刻。

01 國內(nèi)文生視頻能力追趕海外

6月6日，快手的文生視頻大模型可靈發(fā)布，一口氣把視頻生成的時長提到了2分鐘級。

在線上開放版本里，用戶輸入開放式文本描述，等待幾分鐘就能生成時長5秒，幀率30fps，分辨率1080p，且支持多種寬高比的視頻。21日，可靈的功能再度更新，上線了圖生視頻和視頻時間延長功能，用戶添加更多描述，據(jù)稱最長能夠生成長達(dá)3分鐘的視頻。

快手官方將可靈定義為“首個效果對標(biāo) Sora且面向用戶開放的文生視頻大模型”，對比今年2月引爆賽道的Sora，目前OpenAI仍沒有推出公開可適用產(chǎn)品，目前對外展示的視頻最長生成時間也僅為60秒水平。

快手可靈的能力，引發(fā)了業(yè)界的廣泛關(guān)注。截至6月26日，有超過18萬人在快影的排隊列表里等待試用。這種熱度可能快手官方也沒有意料到。有一個插曲，快手視覺生成與互動中心負(fù)責(zé)人萬鵬飛出席北京智源大會時說受到了不少關(guān)注，他看起來頗不習(xí)慣。論壇主持人打趣讓他“盡快習(xí)慣”。

在社交媒體上，可靈收到了海內(nèi)外的不少好評?！案杏X無論是畫質(zhì)、運動幅度、人物、場景一致性上完全不輸sora，可靈的生成質(zhì)量是現(xiàn)在普通用戶能接觸到的天花板”，一位AI行業(yè)人士不吝稱贊。

可靈的出現(xiàn)明顯提振了國內(nèi)文生視頻賽道的士氣。

實際上不止是可靈，過去幾個月里，國內(nèi)文生視頻賽道上的進(jìn)展不小，多家企業(yè)都推出了各類文生視頻模型產(chǎn)品。

比如，愛詩科技的Pixverse也是國內(nèi)出品，愛詩科技核心團(tuán)隊是此前的字節(jié)視覺技術(shù)團(tuán)隊而來。4月，生數(shù)科技發(fā)布文生視頻大模型Vidu，可根據(jù)文本描述直接生成長達(dá)16秒、分辨率高達(dá)1080P的高清視頻內(nèi)容。一個月前，騰訊也發(fā)布混元最新一代基于DiT架構(gòu)的視頻生成模型，能生成16秒視頻，預(yù)計今年第三季度將推出的下一代文生視頻模型，可生成30秒以上視頻。

在一眾產(chǎn)品中，為什么國內(nèi)大廠并不是特別有錢的快手能做到產(chǎn)品化？

一位資深人士認(rèn)為，國內(nèi)加速發(fā)展在于文生視頻賽道自從Sora驗證了Scalling Law之后，技術(shù)上已經(jīng)沒有了秘密。

愛詩科技創(chuàng)始人王長虎表示，Sora橫空出世生成了新語言。Sora最重要的貢獻(xiàn)是驗證了視頻生成的規(guī)模定律，模型越大，可用的優(yōu)質(zhì)數(shù)量數(shù)據(jù)越多，產(chǎn)生的效果更好。

過去十年，Diffusion技術(shù)支撐了AIGC圖像視頻生成的發(fā)展。此前視覺生成擴(kuò)散模型主要基于 U-Net 架構(gòu)，而Sora采取了Diffusion+Transformer架構(gòu)（也即業(yè)界提出的DiT架構(gòu)），去掉了U-NET架構(gòu)，同時利用了大語言模型幫助增強，以及做訓(xùn)練數(shù)據(jù)的精細(xì)化達(dá)標(biāo)。這個技術(shù)也使得眾多視頻生成能力進(jìn)一步提升。

除此之外，精準(zhǔn)學(xué)張寧告訴數(shù)智前線，訓(xùn)練文生視頻大模型對算力的需求沒有大語言模型那么大，也是國內(nèi)在模型能力上快速追平的原因?！爱?dāng)下的生成時長和能力，需要的算力可能在千卡規(guī)模，比大語言模型小很多，現(xiàn)在GPT-4訓(xùn)練時需要的集群規(guī)模在3.2萬張卡水平”。

02 應(yīng)用驅(qū)動的另一股流向

視頻生成領(lǐng)域，另一股趨勢也頗為明顯。在應(yīng)用驅(qū)動下，不少企業(yè)已經(jīng)把視頻生成技術(shù)形成產(chǎn)品和解決方案，去解決行業(yè)問題。

6月21日，華為盤古大模型5.0發(fā)布，其中多模態(tài)能力里就包括了視頻生成技術(shù)。華為一貫強調(diào)大模型技術(shù)要解決行業(yè)難題，在視頻生成技術(shù)上也是如此。

華為常務(wù)董事、華為云CEO張平安介紹，視頻生成技術(shù)應(yīng)用到了自動駕駛的訓(xùn)練環(huán)節(jié)。自動駕駛應(yīng)用里的視頻生成，最怕天馬行空。比如多個行駛視角的視頻合并時，車子可能會莫名其妙消失，這樣的視頻明顯不能用于自動駕駛算法訓(xùn)練。

盤古5.0基于自研的可控時空生成技術(shù)，能理解物理規(guī)律，大規(guī)模的生成和實際場景相一致的駕駛視頻數(shù)據(jù)。像是生成的雨天的汽車行駛視頻里，車子的尾燈都是開啟的。這代表模型通過對海量視頻數(shù)據(jù)的學(xué)習(xí)，學(xué)習(xí)到了雨天開車應(yīng)該開車燈。目前華為沒有透露這種生成能力的技術(shù)路線。

另一些企業(yè)，則集成了大模型的能力，根據(jù)文字組裝視頻，幫助一些B端企業(yè)實現(xiàn)更低門檻創(chuàng)作各類視頻。

特看科技CEO樂乘告訴數(shù)智前線，他們推出視頻AIGC生成平臺，主要是想幫國內(nèi)出海商家和海外本土企業(yè)降低B端廣告營銷視頻制作門檻。這種做法與基于文字從0～1生成畫面的類Sora產(chǎn)品不是一回事。

Sora基于文字憑空生成視頻，而特看的文生視頻工具，接入了海外主流的大語言模型和TTS及多模態(tài)大模型。大模型學(xué)習(xí)爆款視頻的文本結(jié)構(gòu)，生成適合商家產(chǎn)品的文案和腳本，之后自動與商家提供的產(chǎn)品素材匹配，一鍵生成視頻。

這是在應(yīng)用層的嘗試。它的Know-How則在于，如何把不同的模型銜接在一起，并實現(xiàn)流暢工作的工程能力。比如在線合成、在線編輯的流暢程度，數(shù)字人的口型和內(nèi)容的匹配吻合，動作和畫面如何組合等。

另外面向B端可用的視頻生成產(chǎn)品，也重視內(nèi)容的可控性，特看的應(yīng)用從腳本生成到素材匹配，每個環(huán)節(jié)都支持用戶在線編輯調(diào)整，“Sora對我們是增強作用，比如視頻某個鏡頭不行，我們未來可以接入它，用Sora生成片段去填充?！睒烦私榻B。

魔琺科技創(chuàng)始人柴金祥則從培訓(xùn)、電商、金融、快消、廣電等企業(yè)級場景里，企業(yè)對高質(zhì)量、可編輯、且能精準(zhǔn)傳遞信息的內(nèi)容需求出發(fā)，推出有言AIGC一站式3D 視頻創(chuàng)作平臺。

“以往拍攝一條高質(zhì)量3D動畫產(chǎn)品，成本按照秒來計算，周期卻要幾個月，幾十萬成本也下不來。”柴金祥說，他們拆解了3D內(nèi)容所包含的各類要素，將制作3D視頻的流程固化成了軟件化的工業(yè)產(chǎn)線。

比如面向產(chǎn)品發(fā)布會、匯報視頻，知識分享等不同場景，需求方可以調(diào)整3D形象的性別、面部特征、頭發(fā)顏色、外觀、服飾、配飾等各種細(xì)節(jié)，搭配上不同的場景素材。大語言模型、TTS模型的能力被集成到系統(tǒng)里，與此前搭配的素材組合，生成符合需求、內(nèi)容可控的高質(zhì)量3D視頻。

從應(yīng)用層發(fā)力，產(chǎn)品在企業(yè)級場景應(yīng)用和落地速度也推進(jìn)很快。比如魔琺科技介紹，目前在教育、培訓(xùn)、文旅、政務(wù)、金融、3C、快消等多個行業(yè)都有頭部企業(yè)在用他們的產(chǎn)品，已經(jīng)完成了價值驗證。而特看科技也透露，一些出海企業(yè)如安克等，已使用這款產(chǎn)品來做網(wǎng)頁和社媒推廣的視頻。

基于大模型的能力往行業(yè)和應(yīng)用層挖，“模型崩了應(yīng)用也不能用了，大模型升級后應(yīng)用的效果也會增強，比如隨著模型推理的能力增強，生成的速度會越來越快，價格可能也會變便宜，文案質(zhì)量和視頻的質(zhì)量也越來越高。”樂乘說。

03 熱鬧之下，行業(yè)仍需跨越鴻溝

國產(chǎn)AI能力加速追趕之外，不得不說整個6月里賽道的另一個特征——產(chǎn)品井噴潮。巨頭谷歌、明星公司Runway、新晉創(chuàng)企Luma AI，再到國內(nèi)的短視頻企業(yè)快手，都推出了產(chǎn)品或發(fā)布了更新。

比如硅谷創(chuàng)業(yè)公司Luma AI推出的Dream Machine，可基于文字或圖片輸入，在120 秒內(nèi)生成長度為5秒的高質(zhì)量視頻。推出后不少試用者就稱在能力上吊打了老牌AI企業(yè)Runway的文生視頻模型Gen-2。

幾天后，Runway馬上找回了場子，它宣布即將推出新模型Gen-3 Alpha，相比上一代的Gen-2在保真度、一致性和運動表現(xiàn)方面有重大改進(jìn)。并且它支持多種創(chuàng)作方式，包括文本到視頻(T2V)、圖像到視頻(I2V)和文本到圖像(T2I) 等能力。雖然未開放試用，但Runway在官網(wǎng)釋出了不少精彩的視頻。

目前，廠商們都沒有公布文生視頻模型的參數(shù)量級，多是模型即產(chǎn)品模式，主要圍繞生成視頻的時長、視頻的分辨率等指標(biāo)展開。分鐘級的內(nèi)容生成能力，之前Sora是獨苗，快手可靈推出后，一下子刷新了這個指標(biāo)。已公布產(chǎn)品里，騰訊此前宣布過文生視頻模型生成時長達(dá)到了16秒，三季度要到20秒。其他各家目前的產(chǎn)品看還停在10秒以內(nèi) 。

另外，各家的產(chǎn)品化階段和對公眾可用的進(jìn)度也不一。

這種你追我趕的架勢，看起來與大語言模型領(lǐng)域的內(nèi)卷游戲如出一轍。Sora的DiT路線驗證了文生視頻領(lǐng)域的Scaling law之后，文生視頻賽道底層模型的未來走向也變得明了。

樂乘認(rèn)為，Sora和它的追隨者們，后續(xù)的競爭態(tài)勢會跟現(xiàn)在大語言模型一樣。大廠的閉源版產(chǎn)品+開源版，大家一起卷，能力逐漸拉平趨同。

目前行業(yè)里開源產(chǎn)品的能力也在提升。今年3月18日，潞晨科技旗下Colossal-AI團(tuán)隊開源了其Open-Sora 1.0視頻生成模型，包括模型權(quán)重、訓(xùn)練源代碼和詳細(xì)的架構(gòu)，目前在GitHub上獲得超過19.6k的星標(biāo)。

潞晨科技Open-Sora負(fù)責(zé)人申琛惠提到，Open-Sora開源項目，經(jīng)過迭代更新，目前版本能單次生成大概20秒的視頻，針對于最初版本只能生成2秒，有了顯著的提升，基于之前視頻生成的延續(xù)性生成可以長達(dá)數(shù)分鐘。

她也提到了開源項目模型Demo和OpenAI沒有辦法去比?！癘penAI使用到大概2000-4000個H100的GPU，花費5000萬美元到2億美元的訓(xùn)練成本，我們用了大概1萬美金這樣的范圍成本進(jìn)行實驗”。

值得一提的是，快手可靈推出后，已經(jīng)有不少人士在關(guān)注能否“開源白嫖”。萬鵬飛出席北京智源現(xiàn)場兩次被提問模型的開源打算。他回應(yīng)稱，他們暫時不考慮開源，目前已經(jīng)放出了一些關(guān)鍵的判斷和設(shè)計，未來也會把一些硬核的東西逐步釋放出來，大家一起交流學(xué)習(xí)。

當(dāng)下業(yè)界普遍意識到，文生視頻產(chǎn)品距離商用仍然有不小的鴻溝需要跨越。

一個突出的問題是效果不穩(wěn)定，有人將之類比為“抽卡”?！霸谙薅ǖ恼Z句和限定的訓(xùn)練樣本內(nèi)，可以獲得很好的效果，但是一超過邊界就會天馬行空，甚至群魔亂舞，超越人類常識和認(rèn)知?！币晃蝗耸渴褂煤笤u價。

為了減少“抽卡”，企業(yè)也在想辦法提升體驗，比如愛詩科技用到了圖生視頻這種“墊圖”的方法。王長虎提到，如果用文生視頻，需要嘗試 25 次才能生成一次可用的，文生圖每生成 5 次就能有一次可用的，再用這張圖通過技術(shù)把它動起來，抽卡成功概率就從 1/25 提升到了 1/10。

另外，如何對運動規(guī)律和物理世界實現(xiàn)更好的建模，如何生成更長的可用視頻，以及如何能夠表達(dá)鏡頭語言，生成多鏡頭內(nèi)容，都是未來AI視頻要解決的問題。業(yè)界已有共識，目前視頻生成還沒有到ChatGPT階段。

“視頻生成模型目前還處于一個相對早期的發(fā)展階段，其情形有點類似于視頻領(lǐng)域的GPT-2時期。市場上尚未出現(xiàn)一個完全成熟且廣泛可用的視頻生成應(yīng)用。”潞晨科技創(chuàng)始人兼董事長尤洋今年4月指出。

文|數(shù)智前線徐鑫

編輯|任曉漁

過去一個月，稱得上文生視頻大模型月。

愛詩科技PixVerse、快手可靈、Luma AI的Dream Machine、Runway的Gen-3 Alpha、開源項目Open-Sora、谷歌DeepMind的V2A，一眾產(chǎn)品迎來發(fā)布更新潮。

令不少業(yè)內(nèi)人士驚訝的是，國內(nèi)企業(yè)在短短幾個月時間中拿出了一些產(chǎn)品?？焓挚伸`文生視頻大模型，作為全球第一個可公開試用的生成時長超過1分鐘的產(chǎn)品，節(jié)奏甚至走在了Sora的前面。

行業(yè)很熱鬧，不過業(yè)內(nèi)也坦言，文生視頻大模型在產(chǎn)品一致性、生成時長等角度仍有待進(jìn)步，行業(yè)仍未迎來ChatGPT時刻。

01 國內(nèi)文生視頻能力追趕海外

6月6日，快手的文生視頻大模型可靈發(fā)布，一口氣把視頻生成的時長提到了2分鐘級。

可靈的出現(xiàn)明顯提振了國內(nèi)文生視頻賽道的士氣。

實際上不止是可靈，過去幾個月里，國內(nèi)文生視頻賽道上的進(jìn)展不小，多家企業(yè)都推出了各類文生視頻模型產(chǎn)品。

在一眾產(chǎn)品中，為什么國內(nèi)大廠并不是特別有錢的快手能做到產(chǎn)品化？

一位資深人士認(rèn)為，國內(nèi)加速發(fā)展在于文生視頻賽道自從Sora驗證了Scalling Law之后，技術(shù)上已經(jīng)沒有了秘密。

02 應(yīng)用驅(qū)動的另一股流向

另一些企業(yè)，則集成了大模型的能力，根據(jù)文字組裝視頻，幫助一些B端企業(yè)實現(xiàn)更低門檻創(chuàng)作各類視頻。

“以往拍攝一條高質(zhì)量3D動畫產(chǎn)品，成本按照秒來計算，周期卻要幾個月，幾十萬成本也下不來?！辈窠鹣檎f，他們拆解了3D內(nèi)容所包含的各類要素，將制作3D視頻的流程固化成了軟件化的工業(yè)產(chǎn)線。

基于大模型的能力往行業(yè)和應(yīng)用層挖，“模型崩了應(yīng)用也不能用了，大模型升級后應(yīng)用的效果也會增強，比如隨著模型推理的能力增強，生成的速度會越來越快，價格可能也會變便宜，文案質(zhì)量和視頻的質(zhì)量也越來越高?！睒烦苏f。

03 熱鬧之下，行業(yè)仍需跨越鴻溝

另外，各家的產(chǎn)品化階段和對公眾可用的進(jìn)度也不一。

她也提到了開源項目模型Demo和OpenAI沒有辦法去比。“OpenAI使用到大概2000-4000個H100的GPU，花費5000萬美元到2億美元的訓(xùn)練成本，我們用了大概1萬美金這樣的范圍成本進(jìn)行實驗”。

當(dāng)下業(yè)界普遍意識到，文生視頻產(chǎn)品距離商用仍然有不小的鴻溝需要跨越。

“視頻生成模型目前還處于一個相對早期的發(fā)展階段，其情形有點類似于視頻領(lǐng)域的GPT-2時期。市場上尚未出現(xiàn)一個完全成熟且廣泛可用的視頻生成應(yīng)用?！甭撼靠萍紕?chuàng)始人兼董事長尤洋今年4月指出。

歷史搜索全部刪除

熱門搜索

文生視頻，爆發(fā)在六月

01 國內(nèi)文生視頻能力追趕海外

02 應(yīng)用驅(qū)動的另一股流向

03 熱鬧之下，行業(yè)仍需跨越鴻溝

評論

文生視頻，爆發(fā)在六月

01 國內(nèi)文生視頻能力追趕海外

02 應(yīng)用驅(qū)動的另一股流向

03 熱鬧之下，行業(yè)仍需跨越鴻溝

文生視頻，爆發(fā)在六月

01 國內(nèi)文生視頻能力追趕海外

02 應(yīng)用驅(qū)動的另一股流向

03 熱鬧之下，行業(yè)仍需跨越鴻溝

評論

文生視頻，爆發(fā)在六月

01 國內(nèi)文生視頻能力追趕海外

02 應(yīng)用驅(qū)動的另一股流向

03 熱鬧之下，行業(yè)仍需跨越鴻溝

03 熱鬧之下，行業(yè)仍需跨越鴻溝

文生視頻，爆發(fā)在六月