正在閱讀:

語言就是現(xiàn)實(shí):20個(gè)預(yù)言剖析OpenAI的Sora

掃一掃下載界面新聞APP

語言就是現(xiàn)實(shí):20個(gè)預(yù)言剖析OpenAI的Sora

“60秒一鏡到底驚人,世界模型真來了?”

文 | 娛樂資本論 付夢珍

凌晨,OpenAI 介紹了其在 AI 視頻領(lǐng)域的新技術(shù)進(jìn)展:我們打造了一種名為Sora的文本到視頻模型。Sora能夠生成長達(dá)一分鐘的視頻,同時(shí)保持視覺質(zhì)量和對用戶提示的遵循。

簡單來說,Sora可以根據(jù)簡單的提示和靜態(tài)圖像,生成包含多個(gè)角色的視頻畫面。此外,Sora還可以自己“腦補(bǔ)”、“擴(kuò)展”現(xiàn)有視頻片段。

用詞語總結(jié)Sora,那就是:“60s超長長度”“單視頻多角度鏡頭”“充滿情感的角色”“高度擬真的細(xì)節(jié)”和“世界模型”。

這項(xiàng)技術(shù)一經(jīng)發(fā)布,立刻引爆大眾,令無數(shù)人發(fā)出感嘆:

“OpenAI第三個(gè)大招——向所有影視公司拋出二向箔”

“徹底端掉視頻行業(yè)飯碗!OpenAI首個(gè)AI視頻模型炸裂登場”

“60秒一鏡到底驚人,世界模型真來了?”

“太炸了!OpenAI深夜發(fā)布,文字直接生成視頻!網(wǎng)友:我要失業(yè)了”

OpenAI 在官方網(wǎng)站特別指出,所有的視頻都是由 Sora 直接生成的,沒有做過后期調(diào)整。

OpenAI指出,Sora與 GPT 模型類似,也使用了diffusion transformer架構(gòu),是一種擴(kuò)散型變換器模型。OpenAI將視頻和圖像的數(shù)據(jù)表示為patch,類似GPT中的token。技術(shù)上,Sora生成的視頻中,主體可以在三維視頻中進(jìn)行連續(xù)運(yùn)動。

當(dāng)無數(shù)人都在等待OpenAI 公測的時(shí)候,Sam Altman已經(jīng)自己玩嗨了。

他發(fā)推瘋狂安利的同時(shí),還親自下場為網(wǎng)友生成視頻:你們隨意來prompt,我一一輸出。

這時(shí),Sam Altman的身份是剪輯師?攝影師?演員?還是導(dǎo)演?

去年,娛樂資本論在采訪AI創(chuàng)業(yè)者時(shí),有人提出AI視頻將在今年迎來大爆發(fā),前途不可限量。

沒想到,時(shí)間來得如此之快。

那么,Sora將會為世界帶來哪些改變?

01 一段文字就能生成短片,視頻內(nèi)容將會大規(guī)模爆發(fā),原有的崗位結(jié)構(gòu)將會發(fā)生變化,例如攝影師、剪輯將不再存在,編劇可以直接生成電影;

02 講故事的能力會越來越重要;

03 如果你不會講故事,那么從古書、小說中爬取故事的能力也會很重要,人類歷史上的大量文字內(nèi)容,將會以視頻內(nèi)容的形式再現(xiàn);

04 Sora生成的內(nèi)容,將會最先在短視頻領(lǐng)域爆火。因?yàn)檫@個(gè)行業(yè)對技術(shù)的要求低,且Sora可以相對低成本地產(chǎn)出大量具備獵奇性的內(nèi)容;

05 特效行業(yè)的諸多鏡頭可以直接使用AI生成;

06 以后拍戲不需要這么多演員了;

07 游戲、動畫行業(yè)的制作成本將會被大大降低,建模過程可以直接省略了;

08 以后自己寫劇本、自己生成視頻,再加上人機(jī)交互的機(jī)器,《頭號玩家》的劇情會加速到來;

09 人人都有機(jī)會成為AI導(dǎo)演;

10 Sora將會加速數(shù)字人、自動駕駛、智慧成本、元宇宙等行業(yè)的發(fā)展,降低了數(shù)字資產(chǎn)的成本;

11 AI視頻賽道將會迎來新的競爭點(diǎn)。此前被眾人看好的Pika、Runway需要重新思考發(fā)展方向;

12 當(dāng)視頻被生成以后,世界是真實(shí)的可能性越來越微乎其微。繼電話、數(shù)字人詐騙后,新的詐騙手段也會層出不窮;

13 客觀來看,Sora的視頻現(xiàn)在還存在著不連貫幀數(shù)、卡幀、斷幀等問題,準(zhǔn)確性不足等問題,但這些都會隨著技術(shù)的進(jìn)步而解決。

VOL.1 世界模型意味著什么?

維特根斯坦在《邏輯哲學(xué)論》里說,句子是實(shí)在的圖像語言,意思是句子、語言可以影射世界的真實(shí)狀態(tài),語言就是我們的世界模型。

而現(xiàn)在,Sora已經(jīng)通過大量的數(shù)據(jù),能夠理解物理世界的運(yùn)動規(guī)律,學(xué)會了關(guān)于3D幾何形狀和一致性的知識,通過運(yùn)動、反射等方式,創(chuàng)建了一個(gè)包含物理規(guī)則、與真實(shí)世界接近的虛擬世界。

某種程度上來說,Sora已經(jīng)可以像人一樣,對世界有了全面準(zhǔn)確地認(rèn)知。

例如,Sora在生成“色彩繽紛的魚類和海洋生物充斥的,由紙藝精心構(gòu)建的珊瑚礁世界”為主題的視頻中,可以自己通過運(yùn)鏡拍攝,展現(xiàn)內(nèi)容。

項(xiàng)目研究員Bill Peebles指出,“視頻中實(shí)際上發(fā)生了多次鏡頭轉(zhuǎn)換——這些鏡頭并非后期拼接而成,而是模型一氣呵成地生成的。我們并沒有特別指令它這么做,它卻能自動完成?!?/p>

VOL.2 Sora的成果

提示詞:一位時(shí)尚女性走在充滿溫暖霓虹燈和動畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

一鏡到底的60秒視頻里,主體人物和背景都十分穩(wěn)定,且全景、特寫、鏡頭推拉搖移都有,有著復(fù)雜的攝影機(jī)運(yùn)動。細(xì)節(jié)上水中的倒影也在變化。主體人物走動的時(shí)候,背景的招牌也在不斷發(fā)生變化。有氛圍,風(fēng)格絢麗,堪比電影大片的質(zhì)感。以后導(dǎo)演做創(chuàng)投的時(shí)候可以直接用AI生成短片,無需花高價(jià)拍攝了。

提示詞:一個(gè)美麗的剪影動畫展示了一只狼對著月亮嚎叫,感到孤獨(dú),直到它找到狼群。

整個(gè)視頻通過藍(lán)色的背影和狼的剪影,極好地展現(xiàn)出了狼的孤獨(dú),劇情上從一匹狼到多匹狼過渡自然,鏡頭語言上全景和中景、特寫交替切換。Sora不僅懂拍攝,還可以識別人類的情緒。

提示詞:與中國龍一起慶祝中國農(nóng)歷新年的視頻。

龍的形象十分真實(shí)且符合節(jié)日氛圍,人群也很有春節(jié)的氛圍。

提示詞:一位24歲女子在魔法時(shí)刻站在馬拉喀什,眨眼的特寫鏡頭,70毫米拍攝的電影膠片,景深,生動的色彩,電影。

視頻中,人物的皮膚細(xì)節(jié)、睫毛都是十分逼真,和真人實(shí)拍幾乎沒有差別。

VOL.3 結(jié)語

Sora技術(shù)報(bào)告詳細(xì)內(nèi)容可以看技術(shù)文檔:

https://openai.com/research/video-generation-models-as-world-simulators

OpenAI也宣布,將在今天晚些時(shí)候,更新技術(shù)論文。不過根據(jù)Openai之前的發(fā)布風(fēng)格,當(dāng)真正有用的東西出來的時(shí)候,他們只會公開有限的東西,就像GPT4本身到現(xiàn)在也沒有發(fā)布詳細(xì)的技術(shù)參數(shù)。

或許,當(dāng)Sora最終跟大家見面,就是在GPT5和ChatGPT相結(jié)合發(fā)布的時(shí)候。先不用說那時(shí)會有多炸裂的改進(jìn),就算跟現(xiàn)在Pika或Gen-2相近的視頻生成功能,可以在ChatGPT不額外花錢使用,那也將會給用戶帶來很大的改變。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

OpenAI

  • TOPBRAND | Pure Pet Food獲融資;On擴(kuò)張實(shí)體網(wǎng)絡(luò);貝玲妃將回歸中國市場;Courrèges任命首席執(zhí)行官
  • Meta據(jù)悉正在開發(fā)人工智能搜索引擎

評論

暫無評論哦,快來評價(jià)一下吧!

下載界面新聞

微信公眾號

微博

語言就是現(xiàn)實(shí):20個(gè)預(yù)言剖析OpenAI的Sora

“60秒一鏡到底驚人,世界模型真來了?”

文 | 娛樂資本論 付夢珍

凌晨,OpenAI 介紹了其在 AI 視頻領(lǐng)域的新技術(shù)進(jìn)展:我們打造了一種名為Sora的文本到視頻模型。Sora能夠生成長達(dá)一分鐘的視頻,同時(shí)保持視覺質(zhì)量和對用戶提示的遵循。

簡單來說,Sora可以根據(jù)簡單的提示和靜態(tài)圖像,生成包含多個(gè)角色的視頻畫面。此外,Sora還可以自己“腦補(bǔ)”、“擴(kuò)展”現(xiàn)有視頻片段。

用詞語總結(jié)Sora,那就是:“60s超長長度”“單視頻多角度鏡頭”“充滿情感的角色”“高度擬真的細(xì)節(jié)”和“世界模型”。

這項(xiàng)技術(shù)一經(jīng)發(fā)布,立刻引爆大眾,令無數(shù)人發(fā)出感嘆:

“OpenAI第三個(gè)大招——向所有影視公司拋出二向箔”

“徹底端掉視頻行業(yè)飯碗!OpenAI首個(gè)AI視頻模型炸裂登場”

“60秒一鏡到底驚人,世界模型真來了?”

“太炸了!OpenAI深夜發(fā)布,文字直接生成視頻!網(wǎng)友:我要失業(yè)了”

OpenAI 在官方網(wǎng)站特別指出,所有的視頻都是由 Sora 直接生成的,沒有做過后期調(diào)整。

OpenAI指出,Sora與 GPT 模型類似,也使用了diffusion transformer架構(gòu),是一種擴(kuò)散型變換器模型。OpenAI將視頻和圖像的數(shù)據(jù)表示為patch,類似GPT中的token。技術(shù)上,Sora生成的視頻中,主體可以在三維視頻中進(jìn)行連續(xù)運(yùn)動。

當(dāng)無數(shù)人都在等待OpenAI 公測的時(shí)候,Sam Altman已經(jīng)自己玩嗨了。

他發(fā)推瘋狂安利的同時(shí),還親自下場為網(wǎng)友生成視頻:你們隨意來prompt,我一一輸出。

這時(shí),Sam Altman的身份是剪輯師?攝影師?演員?還是導(dǎo)演?

去年,娛樂資本論在采訪AI創(chuàng)業(yè)者時(shí),有人提出AI視頻將在今年迎來大爆發(fā),前途不可限量。

沒想到,時(shí)間來得如此之快。

那么,Sora將會為世界帶來哪些改變?

01 一段文字就能生成短片,視頻內(nèi)容將會大規(guī)模爆發(fā),原有的崗位結(jié)構(gòu)將會發(fā)生變化,例如攝影師、剪輯將不再存在,編劇可以直接生成電影;

02 講故事的能力會越來越重要;

03 如果你不會講故事,那么從古書、小說中爬取故事的能力也會很重要,人類歷史上的大量文字內(nèi)容,將會以視頻內(nèi)容的形式再現(xiàn);

04 Sora生成的內(nèi)容,將會最先在短視頻領(lǐng)域爆火。因?yàn)檫@個(gè)行業(yè)對技術(shù)的要求低,且Sora可以相對低成本地產(chǎn)出大量具備獵奇性的內(nèi)容;

05 特效行業(yè)的諸多鏡頭可以直接使用AI生成;

06 以后拍戲不需要這么多演員了;

07 游戲、動畫行業(yè)的制作成本將會被大大降低,建模過程可以直接省略了;

08 以后自己寫劇本、自己生成視頻,再加上人機(jī)交互的機(jī)器,《頭號玩家》的劇情會加速到來;

09 人人都有機(jī)會成為AI導(dǎo)演;

10 Sora將會加速數(shù)字人、自動駕駛、智慧成本、元宇宙等行業(yè)的發(fā)展,降低了數(shù)字資產(chǎn)的成本;

11 AI視頻賽道將會迎來新的競爭點(diǎn)。此前被眾人看好的Pika、Runway需要重新思考發(fā)展方向;

12 當(dāng)視頻被生成以后,世界是真實(shí)的可能性越來越微乎其微。繼電話、數(shù)字人詐騙后,新的詐騙手段也會層出不窮;

13 客觀來看,Sora的視頻現(xiàn)在還存在著不連貫幀數(shù)、卡幀、斷幀等問題,準(zhǔn)確性不足等問題,但這些都會隨著技術(shù)的進(jìn)步而解決。

VOL.1 世界模型意味著什么?

維特根斯坦在《邏輯哲學(xué)論》里說,句子是實(shí)在的圖像語言,意思是句子、語言可以影射世界的真實(shí)狀態(tài),語言就是我們的世界模型。

而現(xiàn)在,Sora已經(jīng)通過大量的數(shù)據(jù),能夠理解物理世界的運(yùn)動規(guī)律,學(xué)會了關(guān)于3D幾何形狀和一致性的知識,通過運(yùn)動、反射等方式,創(chuàng)建了一個(gè)包含物理規(guī)則、與真實(shí)世界接近的虛擬世界。

某種程度上來說,Sora已經(jīng)可以像人一樣,對世界有了全面準(zhǔn)確地認(rèn)知。

例如,Sora在生成“色彩繽紛的魚類和海洋生物充斥的,由紙藝精心構(gòu)建的珊瑚礁世界”為主題的視頻中,可以自己通過運(yùn)鏡拍攝,展現(xiàn)內(nèi)容。

項(xiàng)目研究員Bill Peebles指出,“視頻中實(shí)際上發(fā)生了多次鏡頭轉(zhuǎn)換——這些鏡頭并非后期拼接而成,而是模型一氣呵成地生成的。我們并沒有特別指令它這么做,它卻能自動完成?!?/p>

VOL.2 Sora的成果

提示詞:一位時(shí)尚女性走在充滿溫暖霓虹燈和動畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。她戴著太陽鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來走去。

一鏡到底的60秒視頻里,主體人物和背景都十分穩(wěn)定,且全景、特寫、鏡頭推拉搖移都有,有著復(fù)雜的攝影機(jī)運(yùn)動。細(xì)節(jié)上水中的倒影也在變化。主體人物走動的時(shí)候,背景的招牌也在不斷發(fā)生變化。有氛圍,風(fēng)格絢麗,堪比電影大片的質(zhì)感。以后導(dǎo)演做創(chuàng)投的時(shí)候可以直接用AI生成短片,無需花高價(jià)拍攝了。

提示詞:一個(gè)美麗的剪影動畫展示了一只狼對著月亮嚎叫,感到孤獨(dú),直到它找到狼群。

整個(gè)視頻通過藍(lán)色的背影和狼的剪影,極好地展現(xiàn)出了狼的孤獨(dú),劇情上從一匹狼到多匹狼過渡自然,鏡頭語言上全景和中景、特寫交替切換。Sora不僅懂拍攝,還可以識別人類的情緒。

提示詞:與中國龍一起慶祝中國農(nóng)歷新年的視頻。

龍的形象十分真實(shí)且符合節(jié)日氛圍,人群也很有春節(jié)的氛圍。

提示詞:一位24歲女子在魔法時(shí)刻站在馬拉喀什,眨眼的特寫鏡頭,70毫米拍攝的電影膠片,景深,生動的色彩,電影。

視頻中,人物的皮膚細(xì)節(jié)、睫毛都是十分逼真,和真人實(shí)拍幾乎沒有差別。

VOL.3 結(jié)語

Sora技術(shù)報(bào)告詳細(xì)內(nèi)容可以看技術(shù)文檔:

https://openai.com/research/video-generation-models-as-world-simulators

OpenAI也宣布,將在今天晚些時(shí)候,更新技術(shù)論文。不過根據(jù)Openai之前的發(fā)布風(fēng)格,當(dāng)真正有用的東西出來的時(shí)候,他們只會公開有限的東西,就像GPT4本身到現(xiàn)在也沒有發(fā)布詳細(xì)的技術(shù)參數(shù)。

或許,當(dāng)Sora最終跟大家見面,就是在GPT5和ChatGPT相結(jié)合發(fā)布的時(shí)候。先不用說那時(shí)會有多炸裂的改進(jìn),就算跟現(xiàn)在Pika或Gen-2相近的視頻生成功能,可以在ChatGPT不額外花錢使用,那也將會給用戶帶來很大的改變。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。