文|新火種 一號
編輯|美美
Sora的出現(xiàn),讓AI視頻生成領(lǐng)域真正“活”了起來。
2024年2月,OpenAI發(fā)布Sora,在生成式AI領(lǐng)域扔下了重磅炸彈。
盡管在去年,Runway、Pika以及Stable Video等就已經(jīng)涉足AI視頻生成領(lǐng)域,并且也曾經(jīng)帶給人們很多驚艷的時刻,甚至讓馬斯克都直呼,2024會是AI視頻生成的元年。就在大家還在期待著這些公司會在2024年帶給大家更多驚喜的時候,Sora放出的Demo,60秒、動作流暢,涂抹感不強,憑借一己之力抬高了視頻生成領(lǐng)域的標準,對于之前只能生成幾秒鐘的AI視頻來說,簡直就是降維打擊。
因此,不僅在社交媒體上人們對Sora贊不絕口,在官方媒體以及一眾企業(yè)家眼中,Sora也成了AI界中明星般的存在。盡管已經(jīng)過去了一個月,光是靠著在TikTok上更新Sora生成的視頻,OpenAI剛開通不久的賬號就已經(jīng)漲了數(shù)十萬粉。這樣的熱度,讓不少的公司都開始想著如何與Sora競爭,如何復(fù)現(xiàn)Sora。
AI視頻生成的戰(zhàn)場,因為Sora,開始真正熱了起來。
Sora橫空出世,同行們怎么樣了?
在Sora橫空出世后,因為AI繪畫開源模型Stable Diffusion而被人們所熟知的Stability AI率先帶頭沖鋒,將在去年展現(xiàn)過的Stable Video拿出來進行了公測。在SV官網(wǎng)上,提供了圖像和文字生成兩個選擇,在輸入提示詞之后,可以生成四張圖像供人選擇,并且還能選擇鏡頭運動的方式,但目前還只能生成4秒鐘的視頻,不少人實際體驗下來,覺得差強人意。
而要說去年炙手可熱的兩大AI視頻生成工具,那一定是Runway的Gen 2以及初創(chuàng)公司Pika。在Sora發(fā)布之前,Runway和Pika都被認為是視頻生成領(lǐng)域上的佼佼者,而在Sora展示了Demo之后,很多人認為,效果已經(jīng)能夠輕松吊打這兩家新興獨角獸公司了,不少人開始擔(dān)憂這些創(chuàng)業(yè)者的命運。
不過,Pika創(chuàng)始人,華人女學(xué)霸郭文景卻并不心灰意冷,她在采訪中回應(yīng)稱,“我們覺得這是一個很振奮人心的消息,我們已經(jīng)在籌備直接沖,將直接對標Sora?!倍聦嵣?,Pika也開始在最近幾周開始了頻繁的更新,但并不是和Sora硬剛。Pika先是更新了讓視頻中的人物能夠根據(jù)輸入的音頻實現(xiàn)對口型的Lip Syne功能,主打一個電影臺詞還是電影最重要的部分。隨后又更新了視頻音效生成的功能,畢竟有聲電影比無聲電影還是要精彩得多的。
而Runway則是自去年P(guān)ika刷屏之后,就說下一步的研究方向是世界模型,因此到現(xiàn)在為止,除了更新了一下用于控制視頻生成效果的運動筆刷,就沒有什么大的消息了。
此外,還有一家來自以色列的公司LTX Studio另辟蹊徑,上線了一個電影制作平臺,直接把視頻生成、編輯、剪輯還有旁白一條龍全都搞定了。
國內(nèi)企業(yè)也在暗暗追趕Sora
除了國外AI視頻生成領(lǐng)域原本的佼佼者開始對Sora奮起直追外,飽受吐槽的國產(chǎn)AI實際上也并沒有讓人失望。
首先是國內(nèi)大廠,與Pika一樣,阿里巴巴同樣選擇了音頻和視頻結(jié)合的賽道來進行“彎道超車”,推出了一個基于音頻生成視頻的模型EMO,只要上傳一張照片和一段音頻,就能讓照片里的人開口說話、唱歌,并且不限時長。像什么小李子版說唱,蒙娜麗莎開口說話以及奧黛麗赫本演講等等都不在話下。
Sora Demo視頻中的這個東京女郎,也成為了能說會道的女士。而且效果也比PIka強不少,也因此在社交媒體上刷了一波屏,該說不說,大廠不愧是大廠。
而字節(jié)跳動,則是早在Sora發(fā)布之前,就已經(jīng)展現(xiàn)了一款名為Boximator的視頻生成模型。它能夠精準空時視頻中的物體,用戶無需編寫復(fù)雜的文本提示詞,直接在參考圖像中框選對象,然后添加一些方框和線條來定義目標的結(jié)束位置或跨幀的整個運動路徑,盡管目前產(chǎn)品還未落地,但也體現(xiàn)了在視頻生成上的一大創(chuàng)意。
除了大廠,在今年3月5日的超訊通信X七火山大會上,一家名為七火山的公司推出了一個融合了Diffusion和Transformer的AI視頻生成模型Etna,實現(xiàn)了15秒4K 60幀的超逼真視頻生成效果,并且同樣具備一定的時空理解能力,可以說是當(dāng)前國內(nèi)最接近Sora的模型之一了。
Sora成功激活了AI視頻市場
除了國內(nèi)外不同企業(yè)的追趕,Sora的出現(xiàn)不僅給同是AI視頻生成領(lǐng)域的創(chuàng)業(yè)公司帶來了壓力,也同樣給他們帶來了希望。
早在Sora展現(xiàn)Demo之前,國內(nèi)就有一家名為智子引擎的公司在快1年以前提出了基于Transformer的Video統(tǒng)一生成框架,他們拿著這篇論文十分費勁地為投資人、求知者講了大半年,卻屢屢碰壁。而如今因為Sora的火爆,他們也收到了不同投資人的電話,想要學(xué)習(xí)Sora、學(xué)習(xí)他們的論文成果。
同樣因為Sora而收到關(guān)注的,還有一家名為愛詩科技的公司。它們的目標是3-6個月趕超Sora。它由字節(jié)跳動前視覺技術(shù)負責(zé)人王長虎于2023年4月創(chuàng)辦,他們致力于打造全球頂尖的AI視頻生成模型及應(yīng)用。如今它已經(jīng)完成了億級A1輪融資,資金將主要用于底層視頻大模型的技術(shù)研發(fā)和團隊搭建等方面。
企業(yè)之外,高校也并未落隊。北大團隊發(fā)起了一項Sora復(fù)現(xiàn)計劃——Open Sora,希望集結(jié)開源社區(qū)的力量,盡可能完成對Sora的復(fù)現(xiàn)。這個初始團隊一共有13人:帶隊的是北大信息工程學(xué)院助理教授、博導(dǎo)袁粒和北大計算機學(xué)院教授、博導(dǎo)田永鴻等人。消息一經(jīng)公布,就有北大校友兼AnimateDiff貢獻者等人進行了回應(yīng),究竟這個“國產(chǎn)版Sora”的新挑戰(zhàn)者能否成功實現(xiàn)復(fù)現(xiàn),我們拭目以待。
顯然Sora的誕生已經(jīng)成功激活了AI視頻生成領(lǐng)域,相信一部完全由AI生成的院線電影可能會比我們想象中更快到來。