正在閱讀:

誰是中國版Sora?

掃一掃下載界面新聞APP

誰是中國版Sora?

Sora再現(xiàn)GPT時刻。

文|科技新知

鏖戰(zhàn)一年的“百模大戰(zhàn)”還未結(jié)束,兩個海外AI巨頭又給國內(nèi)科技大廠出了難題。

就在春節(jié)假期的尾聲,谷歌和OpenAI毫無征兆地放出了各自的 AI新“核武”。

谷歌拿出的新一代多模態(tài)大模型Gemini 1.5 Pro,將性能提升到了百萬級別,完全秒殺了OpenAI的GPT-4 Turbo,暫居地表最強。

而后者發(fā)布的首個文生視頻模型Sora ,則基于視覺美學(xué)的驚艷表現(xiàn),更讓人印象深刻,迅速成為全球科技圈追捧的熱點。

在生成視頻的保真度、長度、穩(wěn)定性、一致性、分辨率、文字理解等各方面,Sora已經(jīng)超過Gen-2、SVD-XT、Pika等主流產(chǎn)品,做到了當(dāng)前最優(yōu),可以說一出手就是王炸。

去年,國內(nèi)的百度、阿里、科大訊飛等互聯(lián)網(wǎng)公司紛紛推出了自研大模型,爭搶智能變革時代的船票;華為、小米、OPPO、vivo等手機廠商也布局大模型,希望新技術(shù)為見頂?shù)氖袌鰩硇碌纳鷻C;眾多創(chuàng)業(yè)公司也進(jìn)入該賽道,試圖輕裝上陣、彎道超車。

但物理意義上的鴻溝讓國內(nèi)的大模型產(chǎn)品在性能、生態(tài)等方面還與ChatGPT有著不小的差距。而如今視頻生成模型Sora的誕生,不出意外也將再次掀起一波跟風(fēng)的浪潮。

然而,顛覆性的效果往往來自顛覆性的思路。從當(dāng)前節(jié)點來看,在AI大模型領(lǐng)域國內(nèi)企業(yè)與世界前端到底還有多大差距?差在哪里?又有哪些種子選手可能脫穎而出?

恐慌

對于Sora的橫空出世,馬斯克的評論“gg humans(人類認(rèn)輸了)”,算是一種主流看法。

此前,雖然已經(jīng)有大量文生視頻技術(shù),但尚未實現(xiàn)技術(shù)收斂,主要實現(xiàn)路徑是通過各種手段讓單幀的圖片“動”起來,類似定格動畫。而從用戶的實際需求來看,視頻每一幀之間的連貫性與自然度是價值的關(guān)鍵,也就是視頻每幀語義信息的無縫銜接才是核心。

也就是說,Sora這種圍繞需求提供對應(yīng)技術(shù)解決方案的產(chǎn)品,要遠(yuǎn)遠(yuǎn)優(yōu)于通過技術(shù)可實現(xiàn)的角度來創(chuàng)造產(chǎn)品。

根據(jù)OpenAI官網(wǎng)上的介紹指出,Sora與之前的文生視頻思路并不一樣,是讓模型一次預(yù)測多幀畫面,并且確保視頻主體保持不變。這正是其巧妙之處——在視頻幀上做突破,提升了生成視頻的使用上限。

360創(chuàng)始人周鴻祎也給予了極高評價,他認(rèn)為Sora的誕生意味著AGI(通用人工智能)的實現(xiàn)可能從十年縮短至一兩年。

作為Sora的前輩,AI文生視頻創(chuàng)企Runway聯(lián)合創(chuàng)始人兼CEO Cristóbal Valenzuela感慨道,以前需要花費一年的進(jìn)展,變成了幾個月就能實現(xiàn),又變成了幾天、幾小時。

Sora發(fā)布前還曾有很多煙霧彈式的信息被放出。比如OpenAI 組建了研究兒童安全的新團(tuán)隊,或是正準(zhǔn)備推出 GPT-4.5-turbo,但真正的“殺手級更新”被隱藏得很好。這也導(dǎo)致像Pika、Runway一樣的明星創(chuàng)業(yè)公司,面對Sora措手不及。

其實,國內(nèi)外大廠對于AI視頻生成的態(tài)度一直模棱兩可。根本問題在于,現(xiàn)在的人工視頻質(zhì)量、效果更好,且成本也能接受;AI 視頻生成此前沒有大家想象的那么顛覆,所以整體策略偏向防御,而非進(jìn)攻。

值得一提的是,國內(nèi)的字節(jié)跳動以及百度的嗅覺更加敏銳。百度早在去年3月文心一言的發(fā)布會上,便發(fā)布了AI文生視頻的功能,百度AI會自動根據(jù)文字內(nèi)容尋找合適的視頻素材,生成視頻后并自動發(fā)布,這是屬于文心一言AIGC的TTV(文本內(nèi)容情感化分析)功能。

字節(jié)跳動則在去年11月發(fā)布了PixelDance,可以通過上一個視頻片段尾幀,為下一個視頻片段頭幀提供指導(dǎo)的思路,在視頻時長上有所突破,但至今仍然沒有開放用戶測試,所以具體效果如何還是未知。

如果從GPT的發(fā)展路徑來看,所有做AI視頻生成甚至做大模型的公司將面臨新一波危機。就像周鴻祎所說,盡管國內(nèi)大模型發(fā)展水平表面看已經(jīng)接近GPT-3.5,但實際上跟4.0比還有一年半的差距。OpenAl手里應(yīng)該還有一些秘密武器,無論是GPT-5還是機器自我學(xué)習(xí)自動產(chǎn)生內(nèi)容。

但是危險中也蘊藏著機遇。OpenAI證明了用大模型的思路做視頻是可行的,文生視頻能蔚然成風(fēng)成為全球新一輪AIGC競賽的焦點,也給短視頻平臺上的直播電商、內(nèi)容創(chuàng)作等帶來更高的天花板。其他互聯(lián)網(wǎng)企業(yè)和內(nèi)容平臺,需要做的只是證明自己也可以用大模型做出視頻。

從技術(shù)角度來看,Sora屬于多模態(tài)混合模型,由大語言模型和文圖生成器拼接而成。這也意味著多模態(tài)模型迭代節(jié)奏加快,不出意外2024年的第一波AI風(fēng)潮將就此展開。

風(fēng)起

自2022年末ChatGPT嶄露頭角,其強大的影響力如野火燎原般蔓延至國內(nèi)科技圈。百度、阿里巴巴、騰訊等一眾互聯(lián)網(wǎng)大廠,以及以米OV為代表的智能硬件公司,仿佛嗅到了新時代的氣息,紛紛宣布推出自家的大模型,意圖在這波AI浪潮中占據(jù)一席之地。

與此同時,文生圖、文生視頻等多模態(tài)AIGC產(chǎn)品也在有序推進(jìn)。實事求是地來看,AI生文、生圖的應(yīng)用,早已層出不窮,相關(guān)的技術(shù)不斷日新月異。相比之下,AI文生視頻,卻是一個遲遲未被攻下的陣地,難度和價值一樣巨大。

公開信息顯示,包括字節(jié)跳動、百度、阿里、海康威視、萬興科技、拓爾思、當(dāng)虹科技在內(nèi)的科技公司,都在積極布局文生視頻,但與Sora相比存在不小的差距。

簡單來講,之前的AI文生視頻工具,僅僅停留在“模擬現(xiàn)實”的層面,Sora則已經(jīng)躍升到了“構(gòu)建現(xiàn)實”的新高度。兩者的根本區(qū)別在于,前者只是對現(xiàn)實世界的表面模仿,難以深入捕捉現(xiàn)實世界的物理規(guī)則和動態(tài)變化;而后者則是在虛擬世界中重新構(gòu)建了一種與現(xiàn)實世界并行的存在。

Sora不僅學(xué)習(xí)了像素與畫面的呈現(xiàn),更深入理解了現(xiàn)實世界的“物理規(guī)律”。例如在現(xiàn)實世界中,我們每咬下一口食物,食物上都會留下咬痕,這是遵循物理規(guī)則的自然現(xiàn)象。Sora生成的視頻中,同樣能夠精準(zhǔn)地再現(xiàn)這一細(xì)節(jié),做到“咬下去有痕跡”,從而在虛擬世界中完美再現(xiàn)了現(xiàn)實世界的真實感。而這是其他文生視頻產(chǎn)品所做不到的。

以百度的文心一言為例,雖然其能夠根據(jù)輸入的文本生成視頻,但在處理復(fù)雜場景和細(xì)節(jié)描繪方面仍存在不足。并且百度AI文生視頻也更像是從已有素材庫中找到更接近文字意思的視頻進(jìn)行拼接,單靠AI很難生成新的視頻內(nèi)容。

今年初,字節(jié)跳動發(fā)布了一款超高清文生視頻模型MagicVideo-V2。據(jù)悉,該模型輸出的視頻在高清度、潤滑度、連貫性、文本語義還原等方面,比目前主流的文生視頻模型Gen-2、Stable Video Diffusion、Pika 1.0等更出色。

抖音的張楠已于2月初辭去CEO崗位,聚焦在剪映業(yè)務(wù)上。這意味著,抖音將加強對AI生圖和視頻產(chǎn)品的布局,其中文生視頻自然是重中之重。

不過在張楠的規(guī)劃中,AI視頻所應(yīng)具備的更高保真度生成效果、更清晰生成畫面、更順暢自然的邏輯理解能力等,也被Sora一朝之間吊打。

相對于互聯(lián)網(wǎng)巨頭的低調(diào)表現(xiàn),一些上市公司在近期卻積極發(fā)聲,紛紛披露自己在視頻生成模型領(lǐng)域的業(yè)務(wù)情況。

據(jù)不完全統(tǒng)計,包括萬興科技、博匯科技、易點天下、數(shù)碼視訊、漢王科技、當(dāng)虹科技、東方國信、神思電子、因賽集團(tuán)、拓爾思、國脈文化、佳都科技在內(nèi)的超10家A股上市公司,近三個月以來在互動平臺上各自披露了相關(guān)視頻生成模型領(lǐng)域的業(yè)務(wù)情況。

但不能否認(rèn)的是,真正達(dá)到前沿水平的公司鳳毛麟角,許多公司只是在跟風(fēng)炒作,缺乏真正的技術(shù)儲備和研發(fā)能力。

東方國信直言不諱地表示,他們在AI視頻生成領(lǐng)域尚無成熟的技術(shù)儲備;而神思電子則回應(yīng)稱,公司正在對文生圖、圖生文、視頻生文、文生視頻等多模態(tài)數(shù)據(jù)互相跳轉(zhuǎn)的收斂性質(zhì)進(jìn)行深入研究,言下之意,他們在這方面的技術(shù)也還在探索階段。

AI文生視頻的顛覆性,可以具體到實際運用層面來看。圖片、視頻生成能幫助提高企業(yè)的商業(yè)化需求,如幫助降低廣告客戶成本、便捷制作視頻等。拿字節(jié)跳動舉例,其廣告客戶投放總成本中有一到兩成為視頻制作成本,而去年開始字節(jié)已經(jīng)用相關(guān)產(chǎn)品幫助廣告客戶壓縮這部分投入。

與上一波ChatGPT的風(fēng)潮相似,盡管在推出類似AI文生視頻產(chǎn)品方面國內(nèi)企業(yè)難免落后一步,但也不失為一個摸著Sora過河的機會。

涌動

從全球市場來看,AI仍然引領(lǐng)著整個科技商業(yè)前進(jìn)的方向,而且多模態(tài)成為主流。從大語言模型到多模態(tài),再到通用人工智能的路徑已經(jīng)逐漸清晰,分歧點還是在于節(jié)奏的判斷。

此前,OpenAI花了大約半年時間來測試大語言模型GPT-4。如果測試Sora需要差不多的時長,這個強大的視頻生成工具可能會在今年8月份開放。而這半年時間便是其他企業(yè)積累力量的窗口期。

畢竟ChatGPT已經(jīng)問世一年多,但還有大量用戶沒有使用過聊天機器人相關(guān)產(chǎn)品,這也為其他企業(yè)迎頭趕上提供了機會。

而目前國內(nèi)企業(yè)面臨的最大問題,還在于第一梯隊的AI公司如百度、科大訊飛的股價,因各種原因被打到了地板價,而國外的頂級企業(yè),如英偉達(dá)、微軟的股價創(chuàng)出新高,OpenAI的估值仍然在不斷上升。這也意味著海內(nèi)外AI企業(yè)在資本、人才、技術(shù)、市場號召力等方面存在著天然的優(yōu)劣差異。

周鴻祎認(rèn)為,科技競爭最終比拼的是人才密度和深厚積累。事實也是如此,Sora應(yīng)用的是Transformer+Diffusion。從模型架構(gòu)來看,如果以Transformer為基準(zhǔn),那么文生視頻依舊是龍頭科技企業(yè)更有優(yōu)先權(quán),但是如果生成式視頻架構(gòu)依舊圍繞Diffusion展開的話,創(chuàng)業(yè)企業(yè)機會要更大一些。

不過沒有一騎絕塵的技術(shù),只有螺旋式上升的產(chǎn)業(yè)繁榮。

Sora雖然可以一次性生成幾十秒到一分鐘的視頻,但是真正在應(yīng)用階段,如果產(chǎn)品沒有提供足夠多的微操空間,確保用戶能夠?qū)⑵湔系阶约旱墓ぷ髁髦?,那么大概率也只能叫好不叫座?/p>

好在技術(shù)的擴散才剛剛開始,不會有任何一家公司“猝死”在新技術(shù)的出現(xiàn)上。OpenAI更像是一個開拓者,強項在于鋪路,普及應(yīng)用尚需要生態(tài)的力量。

就像是在文生文模型上的模塊化組合,是否會有類似手機、智能音箱一樣的專有智能設(shè)備問世?讓更多用戶可以在端側(cè)使用模型,構(gòu)建起開源+小參數(shù)模型+移動端的思路,把當(dāng)下的產(chǎn)品做一次革新。這是國內(nèi)廠商所擅長的,但同時也是未來內(nèi)卷的陣地。

從單點的突破來看,Sora具有里程碑意義;但是從商業(yè)化需求和混剪工作流效率提升來看,Sora本身的價值和落地效果還有待考究。

想僅靠AI生成的一分鐘視頻成為下一個董宇輝、李佳琪并不現(xiàn)實,更別說制作長視頻或者電影、電視劇了,即便是做一個短視頻,是通過一遍遍修改提示詞更加有效率,還是在視頻剪輯軟件里按照創(chuàng)作者的想法調(diào)整素材更快?顯然,期待Sora變得更強,不如期待視頻剪輯軟件中盡早增添AI模塊,從而切實提升工作效率。

即使最終Sora全面放開注冊,普通用戶也難以做出如當(dāng)前演示案例般的視頻Demo。所以最終各個大廠的決勝點還是在于如何普及多模態(tài)的應(yīng)用,如何在工具中加入AI功能,更直接地優(yōu)化工作流程。

新興技術(shù)具有普適性,并不是某個企業(yè)的專屬。對于國內(nèi)企業(yè)來說,在多模態(tài)上的探索不妨可以參考GPT的發(fā)展、落地方式,在特定垂直領(lǐng)域的應(yīng)用層面找到自身的優(yōu)勢,并以此作為方向?qū)崿F(xiàn)快速發(fā)展。

只是在這個過程中,拼的還是人才密度、落地程度以及犯錯誤的次數(shù)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

OpenAI

  • OpenAI前首席科學(xué)家蘇茨克維:具有推理能力的人工智能將難以預(yù)測
  • Meta據(jù)悉敦促加州司法部長阻止OpenAI轉(zhuǎn)變?yōu)闋I利性公司

百度

6.7k
  • 商業(yè)頭條No.54 | 百度造車夢碎
  • 吉利百度發(fā)表聯(lián)合聲明:將積極協(xié)助極越處理相關(guān)事宜

谷歌

6.3k
  • 谷歌與國內(nèi)消費級AR眼鏡廠商XREAL達(dá)成戰(zhàn)略合作
  • 谷歌恢復(fù)歐盟三國的酒店搜索功能

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

誰是中國版Sora?

Sora再現(xiàn)GPT時刻。

文|科技新知

鏖戰(zhàn)一年的“百模大戰(zhàn)”還未結(jié)束,兩個海外AI巨頭又給國內(nèi)科技大廠出了難題。

就在春節(jié)假期的尾聲,谷歌和OpenAI毫無征兆地放出了各自的 AI新“核武”。

谷歌拿出的新一代多模態(tài)大模型Gemini 1.5 Pro,將性能提升到了百萬級別,完全秒殺了OpenAI的GPT-4 Turbo,暫居地表最強。

而后者發(fā)布的首個文生視頻模型Sora ,則基于視覺美學(xué)的驚艷表現(xiàn),更讓人印象深刻,迅速成為全球科技圈追捧的熱點。

在生成視頻的保真度、長度、穩(wěn)定性、一致性、分辨率、文字理解等各方面,Sora已經(jīng)超過Gen-2、SVD-XT、Pika等主流產(chǎn)品,做到了當(dāng)前最優(yōu),可以說一出手就是王炸。

去年,國內(nèi)的百度、阿里、科大訊飛等互聯(lián)網(wǎng)公司紛紛推出了自研大模型,爭搶智能變革時代的船票;華為、小米、OPPO、vivo等手機廠商也布局大模型,希望新技術(shù)為見頂?shù)氖袌鰩硇碌纳鷻C;眾多創(chuàng)業(yè)公司也進(jìn)入該賽道,試圖輕裝上陣、彎道超車。

但物理意義上的鴻溝讓國內(nèi)的大模型產(chǎn)品在性能、生態(tài)等方面還與ChatGPT有著不小的差距。而如今視頻生成模型Sora的誕生,不出意外也將再次掀起一波跟風(fēng)的浪潮。

然而,顛覆性的效果往往來自顛覆性的思路。從當(dāng)前節(jié)點來看,在AI大模型領(lǐng)域國內(nèi)企業(yè)與世界前端到底還有多大差距?差在哪里?又有哪些種子選手可能脫穎而出?

恐慌

對于Sora的橫空出世,馬斯克的評論“gg humans(人類認(rèn)輸了)”,算是一種主流看法。

此前,雖然已經(jīng)有大量文生視頻技術(shù),但尚未實現(xiàn)技術(shù)收斂,主要實現(xiàn)路徑是通過各種手段讓單幀的圖片“動”起來,類似定格動畫。而從用戶的實際需求來看,視頻每一幀之間的連貫性與自然度是價值的關(guān)鍵,也就是視頻每幀語義信息的無縫銜接才是核心。

也就是說,Sora這種圍繞需求提供對應(yīng)技術(shù)解決方案的產(chǎn)品,要遠(yuǎn)遠(yuǎn)優(yōu)于通過技術(shù)可實現(xiàn)的角度來創(chuàng)造產(chǎn)品。

根據(jù)OpenAI官網(wǎng)上的介紹指出,Sora與之前的文生視頻思路并不一樣,是讓模型一次預(yù)測多幀畫面,并且確保視頻主體保持不變。這正是其巧妙之處——在視頻幀上做突破,提升了生成視頻的使用上限。

360創(chuàng)始人周鴻祎也給予了極高評價,他認(rèn)為Sora的誕生意味著AGI(通用人工智能)的實現(xiàn)可能從十年縮短至一兩年。

作為Sora的前輩,AI文生視頻創(chuàng)企Runway聯(lián)合創(chuàng)始人兼CEO Cristóbal Valenzuela感慨道,以前需要花費一年的進(jìn)展,變成了幾個月就能實現(xiàn),又變成了幾天、幾小時。

Sora發(fā)布前還曾有很多煙霧彈式的信息被放出。比如OpenAI 組建了研究兒童安全的新團(tuán)隊,或是正準(zhǔn)備推出 GPT-4.5-turbo,但真正的“殺手級更新”被隱藏得很好。這也導(dǎo)致像Pika、Runway一樣的明星創(chuàng)業(yè)公司,面對Sora措手不及。

其實,國內(nèi)外大廠對于AI視頻生成的態(tài)度一直模棱兩可。根本問題在于,現(xiàn)在的人工視頻質(zhì)量、效果更好,且成本也能接受;AI 視頻生成此前沒有大家想象的那么顛覆,所以整體策略偏向防御,而非進(jìn)攻。

值得一提的是,國內(nèi)的字節(jié)跳動以及百度的嗅覺更加敏銳。百度早在去年3月文心一言的發(fā)布會上,便發(fā)布了AI文生視頻的功能,百度AI會自動根據(jù)文字內(nèi)容尋找合適的視頻素材,生成視頻后并自動發(fā)布,這是屬于文心一言AIGC的TTV(文本內(nèi)容情感化分析)功能。

字節(jié)跳動則在去年11月發(fā)布了PixelDance,可以通過上一個視頻片段尾幀,為下一個視頻片段頭幀提供指導(dǎo)的思路,在視頻時長上有所突破,但至今仍然沒有開放用戶測試,所以具體效果如何還是未知。

如果從GPT的發(fā)展路徑來看,所有做AI視頻生成甚至做大模型的公司將面臨新一波危機。就像周鴻祎所說,盡管國內(nèi)大模型發(fā)展水平表面看已經(jīng)接近GPT-3.5,但實際上跟4.0比還有一年半的差距。OpenAl手里應(yīng)該還有一些秘密武器,無論是GPT-5還是機器自我學(xué)習(xí)自動產(chǎn)生內(nèi)容。

但是危險中也蘊藏著機遇。OpenAI證明了用大模型的思路做視頻是可行的,文生視頻能蔚然成風(fēng)成為全球新一輪AIGC競賽的焦點,也給短視頻平臺上的直播電商、內(nèi)容創(chuàng)作等帶來更高的天花板。其他互聯(lián)網(wǎng)企業(yè)和內(nèi)容平臺,需要做的只是證明自己也可以用大模型做出視頻。

從技術(shù)角度來看,Sora屬于多模態(tài)混合模型,由大語言模型和文圖生成器拼接而成。這也意味著多模態(tài)模型迭代節(jié)奏加快,不出意外2024年的第一波AI風(fēng)潮將就此展開。

風(fēng)起

自2022年末ChatGPT嶄露頭角,其強大的影響力如野火燎原般蔓延至國內(nèi)科技圈。百度、阿里巴巴、騰訊等一眾互聯(lián)網(wǎng)大廠,以及以米OV為代表的智能硬件公司,仿佛嗅到了新時代的氣息,紛紛宣布推出自家的大模型,意圖在這波AI浪潮中占據(jù)一席之地。

與此同時,文生圖、文生視頻等多模態(tài)AIGC產(chǎn)品也在有序推進(jìn)。實事求是地來看,AI生文、生圖的應(yīng)用,早已層出不窮,相關(guān)的技術(shù)不斷日新月異。相比之下,AI文生視頻,卻是一個遲遲未被攻下的陣地,難度和價值一樣巨大。

公開信息顯示,包括字節(jié)跳動、百度、阿里、??低?、萬興科技、拓爾思、當(dāng)虹科技在內(nèi)的科技公司,都在積極布局文生視頻,但與Sora相比存在不小的差距。

簡單來講,之前的AI文生視頻工具,僅僅停留在“模擬現(xiàn)實”的層面,Sora則已經(jīng)躍升到了“構(gòu)建現(xiàn)實”的新高度。兩者的根本區(qū)別在于,前者只是對現(xiàn)實世界的表面模仿,難以深入捕捉現(xiàn)實世界的物理規(guī)則和動態(tài)變化;而后者則是在虛擬世界中重新構(gòu)建了一種與現(xiàn)實世界并行的存在。

Sora不僅學(xué)習(xí)了像素與畫面的呈現(xiàn),更深入理解了現(xiàn)實世界的“物理規(guī)律”。例如在現(xiàn)實世界中,我們每咬下一口食物,食物上都會留下咬痕,這是遵循物理規(guī)則的自然現(xiàn)象。Sora生成的視頻中,同樣能夠精準(zhǔn)地再現(xiàn)這一細(xì)節(jié),做到“咬下去有痕跡”,從而在虛擬世界中完美再現(xiàn)了現(xiàn)實世界的真實感。而這是其他文生視頻產(chǎn)品所做不到的。

以百度的文心一言為例,雖然其能夠根據(jù)輸入的文本生成視頻,但在處理復(fù)雜場景和細(xì)節(jié)描繪方面仍存在不足。并且百度AI文生視頻也更像是從已有素材庫中找到更接近文字意思的視頻進(jìn)行拼接,單靠AI很難生成新的視頻內(nèi)容。

今年初,字節(jié)跳動發(fā)布了一款超高清文生視頻模型MagicVideo-V2。據(jù)悉,該模型輸出的視頻在高清度、潤滑度、連貫性、文本語義還原等方面,比目前主流的文生視頻模型Gen-2、Stable Video Diffusion、Pika 1.0等更出色。

抖音的張楠已于2月初辭去CEO崗位,聚焦在剪映業(yè)務(wù)上。這意味著,抖音將加強對AI生圖和視頻產(chǎn)品的布局,其中文生視頻自然是重中之重。

不過在張楠的規(guī)劃中,AI視頻所應(yīng)具備的更高保真度生成效果、更清晰生成畫面、更順暢自然的邏輯理解能力等,也被Sora一朝之間吊打。

相對于互聯(lián)網(wǎng)巨頭的低調(diào)表現(xiàn),一些上市公司在近期卻積極發(fā)聲,紛紛披露自己在視頻生成模型領(lǐng)域的業(yè)務(wù)情況。

據(jù)不完全統(tǒng)計,包括萬興科技、博匯科技、易點天下、數(shù)碼視訊、漢王科技、當(dāng)虹科技、東方國信、神思電子、因賽集團(tuán)、拓爾思、國脈文化、佳都科技在內(nèi)的超10家A股上市公司,近三個月以來在互動平臺上各自披露了相關(guān)視頻生成模型領(lǐng)域的業(yè)務(wù)情況。

但不能否認(rèn)的是,真正達(dá)到前沿水平的公司鳳毛麟角,許多公司只是在跟風(fēng)炒作,缺乏真正的技術(shù)儲備和研發(fā)能力。

東方國信直言不諱地表示,他們在AI視頻生成領(lǐng)域尚無成熟的技術(shù)儲備;而神思電子則回應(yīng)稱,公司正在對文生圖、圖生文、視頻生文、文生視頻等多模態(tài)數(shù)據(jù)互相跳轉(zhuǎn)的收斂性質(zhì)進(jìn)行深入研究,言下之意,他們在這方面的技術(shù)也還在探索階段。

AI文生視頻的顛覆性,可以具體到實際運用層面來看。圖片、視頻生成能幫助提高企業(yè)的商業(yè)化需求,如幫助降低廣告客戶成本、便捷制作視頻等。拿字節(jié)跳動舉例,其廣告客戶投放總成本中有一到兩成為視頻制作成本,而去年開始字節(jié)已經(jīng)用相關(guān)產(chǎn)品幫助廣告客戶壓縮這部分投入。

與上一波ChatGPT的風(fēng)潮相似,盡管在推出類似AI文生視頻產(chǎn)品方面國內(nèi)企業(yè)難免落后一步,但也不失為一個摸著Sora過河的機會。

涌動

從全球市場來看,AI仍然引領(lǐng)著整個科技商業(yè)前進(jìn)的方向,而且多模態(tài)成為主流。從大語言模型到多模態(tài),再到通用人工智能的路徑已經(jīng)逐漸清晰,分歧點還是在于節(jié)奏的判斷。

此前,OpenAI花了大約半年時間來測試大語言模型GPT-4。如果測試Sora需要差不多的時長,這個強大的視頻生成工具可能會在今年8月份開放。而這半年時間便是其他企業(yè)積累力量的窗口期。

畢竟ChatGPT已經(jīng)問世一年多,但還有大量用戶沒有使用過聊天機器人相關(guān)產(chǎn)品,這也為其他企業(yè)迎頭趕上提供了機會。

而目前國內(nèi)企業(yè)面臨的最大問題,還在于第一梯隊的AI公司如百度、科大訊飛的股價,因各種原因被打到了地板價,而國外的頂級企業(yè),如英偉達(dá)、微軟的股價創(chuàng)出新高,OpenAI的估值仍然在不斷上升。這也意味著海內(nèi)外AI企業(yè)在資本、人才、技術(shù)、市場號召力等方面存在著天然的優(yōu)劣差異。

周鴻祎認(rèn)為,科技競爭最終比拼的是人才密度和深厚積累。事實也是如此,Sora應(yīng)用的是Transformer+Diffusion。從模型架構(gòu)來看,如果以Transformer為基準(zhǔn),那么文生視頻依舊是龍頭科技企業(yè)更有優(yōu)先權(quán),但是如果生成式視頻架構(gòu)依舊圍繞Diffusion展開的話,創(chuàng)業(yè)企業(yè)機會要更大一些。

不過沒有一騎絕塵的技術(shù),只有螺旋式上升的產(chǎn)業(yè)繁榮。

Sora雖然可以一次性生成幾十秒到一分鐘的視頻,但是真正在應(yīng)用階段,如果產(chǎn)品沒有提供足夠多的微操空間,確保用戶能夠?qū)⑵湔系阶约旱墓ぷ髁髦?,那么大概率也只能叫好不叫座?/p>

好在技術(shù)的擴散才剛剛開始,不會有任何一家公司“猝死”在新技術(shù)的出現(xiàn)上。OpenAI更像是一個開拓者,強項在于鋪路,普及應(yīng)用尚需要生態(tài)的力量。

就像是在文生文模型上的模塊化組合,是否會有類似手機、智能音箱一樣的專有智能設(shè)備問世?讓更多用戶可以在端側(cè)使用模型,構(gòu)建起開源+小參數(shù)模型+移動端的思路,把當(dāng)下的產(chǎn)品做一次革新。這是國內(nèi)廠商所擅長的,但同時也是未來內(nèi)卷的陣地。

從單點的突破來看,Sora具有里程碑意義;但是從商業(yè)化需求和混剪工作流效率提升來看,Sora本身的價值和落地效果還有待考究。

想僅靠AI生成的一分鐘視頻成為下一個董宇輝、李佳琪并不現(xiàn)實,更別說制作長視頻或者電影、電視劇了,即便是做一個短視頻,是通過一遍遍修改提示詞更加有效率,還是在視頻剪輯軟件里按照創(chuàng)作者的想法調(diào)整素材更快?顯然,期待Sora變得更強,不如期待視頻剪輯軟件中盡早增添AI模塊,從而切實提升工作效率。

即使最終Sora全面放開注冊,普通用戶也難以做出如當(dāng)前演示案例般的視頻Demo。所以最終各個大廠的決勝點還是在于如何普及多模態(tài)的應(yīng)用,如何在工具中加入AI功能,更直接地優(yōu)化工作流程。

新興技術(shù)具有普適性,并不是某個企業(yè)的專屬。對于國內(nèi)企業(yè)來說,在多模態(tài)上的探索不妨可以參考GPT的發(fā)展、落地方式,在特定垂直領(lǐng)域的應(yīng)用層面找到自身的優(yōu)勢,并以此作為方向?qū)崿F(xiàn)快速發(fā)展。

只是在這個過程中,拼的還是人才密度、落地程度以及犯錯誤的次數(shù)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。