正在閱讀:

OpenAI為什么總是領(lǐng)先一個(gè)版本

掃一掃下載界面新聞APP

OpenAI為什么總是領(lǐng)先一個(gè)版本

Sora,AI視頻的GPT時(shí)刻。

文 | 藍(lán)媒匯  陶然

編輯 | 魏曉

Sora視頻模型的發(fā)布,幾乎復(fù)刻了一年半之前GPT-3初登場(chǎng)時(shí)的AI圈盛況:

突然出現(xiàn),引起熱議,廣為震驚。

北京時(shí)間2月16日,在沒有任何消息外泄、事先預(yù)告的情況下,OpenAI在社交平臺(tái)X(原推特)發(fā)帖,首次對(duì)外公布了名為Sora的文生視頻AI模型。

一句“Introducing Sora, our text-to-video model(介紹一下Sora,我們的文本轉(zhuǎn)視頻模型)”,切入正題之簡(jiǎn)短,比起宣發(fā),更像是一則告知:是的,我們又掏出大的來了。

之后,便是對(duì)Sora模型的能力介紹:Sora可以創(chuàng)建長(zhǎng)達(dá)60秒的視頻,其中包含高度詳細(xì)的場(chǎng)景、復(fù)雜的攝像機(jī)運(yùn)動(dòng)以及充滿活力、情感的多個(gè)角色。

還附上了演示案例的對(duì)應(yīng)Prompt(提示詞):美麗、白雪皚皚的東京城很繁華。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個(gè)人享受美麗的雪天并在附近的攤位購(gòu)物。美麗的櫻花花瓣隨著雪花在風(fēng)中飛舞。

對(duì)于Sora,業(yè)界評(píng)價(jià)并不統(tǒng)一:

有人100%認(rèn)可,也有人120%、200%認(rèn)可。

360創(chuàng)始人周鴻祎發(fā)文稱,Sora意味著實(shí)現(xiàn)通用人工智能可能從10年縮短至1年,該模型展現(xiàn)的不僅是視頻制作的能力,還展現(xiàn)了大模型對(duì)真實(shí)世界有了理解和模擬之后,會(huì)帶來新的成果和突破。

英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan將Sora稱作是視頻生成領(lǐng)域的GPT-3時(shí)刻:Sora是一個(gè)“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”,一個(gè)可學(xué)習(xí)的模擬器或“世界模型”。

高強(qiáng)度網(wǎng)上沖浪且一向心直口快的馬斯克則直接打出gg human(人類輸了)。

暫且不去深究后續(xù)影響到底是積極還是消極,能給AI、影視、社媒等一眾行業(yè)同步帶來顛覆性王炸、劃時(shí)代之感的,又是OpenAI,總是OpenAI。

像是一群工程師還在討論如何進(jìn)一步完善登月計(jì)劃,OpenAI的團(tuán)隊(duì)已經(jīng)從火星傳回來一組自拍——他們總是領(lǐng)先一個(gè)版本,為什么?

前文英偉達(dá)AI研究院科學(xué)家Jim Fan對(duì)于Sora的評(píng)價(jià),從技術(shù)層面來看很有參考性:他將Sora定義為物理引擎和世界模型。傳統(tǒng)意義上的視頻畫面是二維,而人們身處的物理世界是三維的。

這成為了AI視頻模型設(shè)計(jì)之初的理念區(qū)別:在生成視頻的過程中,AI的作用到底應(yīng)該是將多段視頻片段拆分組合,還是應(yīng)該作為一個(gè)主體,構(gòu)建并記錄一個(gè)虛擬的AI空間。

OpenAI的選擇是后者。

其官網(wǎng)發(fā)布的Sora技術(shù)報(bào)告中,有一句話值得注意:“我們的結(jié)果表明,發(fā)展能夠模擬物理世界動(dòng)態(tài)的通用模擬器是一條充滿希望的途徑,具有前所未有的準(zhǔn)確度和現(xiàn)實(shí)感?!?/p>

做一個(gè)粗淺的理解就是,Sora不是編輯視頻,而是在生成視頻之前先建模一個(gè)空間,然后變成一個(gè)鏡頭記錄這個(gè)三維立體的虛擬空間。

立體建模能展現(xiàn)信息量遠(yuǎn)遠(yuǎn)多于平面圖,從設(shè)計(jì)思路上OpenAI就領(lǐng)先了一個(gè)維度,或者說提前了一個(gè)版本。

當(dāng)然,更多的信息量意味著更龐大的數(shù)據(jù)流,在有限算力內(nèi)跑出更好效果、在保證效果的前提下盡量節(jié)約算力,本質(zhì)上是同一個(gè)問題:AI計(jì)算效率。

但對(duì)于OpenAI來說,這些問題都有經(jīng)驗(yàn)可循——從ChatGPT到GPT-4等等項(xiàng)目的技術(shù)積累,成為OpenAI構(gòu)建Sora模型的良好地基。

受大語言模型成功案例啟發(fā),OpenAI在探索視頻模型時(shí)就在思考“如何獲得類似的好處”:大模型運(yùn)轉(zhuǎn)期間,token(詞匯單元)作為自然語言處理任務(wù)中的最小文本單位,承載著輸入信息的作用,幫助模型對(duì)文本進(jìn)行處理和理解。ChatGPT將代碼、數(shù)學(xué)以及各種不同的自然語言一并拆分為token,再交由模型對(duì)token進(jìn)行處理和理解,并能夠通過學(xué)習(xí)token之間的關(guān)系來獲取更多的語義信息。

同理,在視頻生成模型中,OpenAI也創(chuàng)造了與token對(duì)應(yīng)的數(shù)據(jù)單位“Patch”(圖像單元),將圖形語言轉(zhuǎn)化為對(duì)應(yīng)格式的Patch進(jìn)行計(jì)算,在保證模型擴(kuò)展性的同時(shí),大幅提升單位算力內(nèi)的運(yùn)算效率。

而在模型的前端,OpenAI同樣用上了自己在GPT系列模型的成果:

和文本對(duì)話類似,訓(xùn)練文生視頻的過程中,除了需要視頻素材案例之外,同樣需要大量對(duì)應(yīng)的文字說明。OpenAI采用了最初在DALL·E 3中提出的“重新加標(biāo)題”模式,用具備高度描述性的標(biāo)題生成器為訓(xùn)練集中的視頻素材生成文字說明。生成結(jié)果也證明了,在制作期間為素材添加額外的說明,可以提高包括準(zhǔn)確性在內(nèi)的整體視頻質(zhì)量。

此外,仿照DALL·E 3的做法,OpenAI還另外使用GPT對(duì)用戶輸入的簡(jiǎn)短提示詞進(jìn)行了更便于AI理解的擴(kuò)寫,把用戶輸入的文字?jǐn)U充成更長(zhǎng)、更詳盡的說明,再交由視頻生成模型進(jìn)行處理。

對(duì)于OpenAI這類技術(shù)驅(qū)動(dòng)型公司來說,經(jīng)驗(yàn)和技術(shù)的積累都是加速度,有跡可循的成功經(jīng)驗(yàn)疊加團(tuán)隊(duì)自身對(duì)AI概念領(lǐng)先理解,讓OpenAI總是能踩在自己的肩膀向上,或是推著自己加速向前。

比技術(shù)領(lǐng)先更可怕或者說更值得友商在意的,是這種領(lǐng)先往往會(huì)成為慣性,一步快步步快。指望靠加速追趕和對(duì)標(biāo)與OpenAI看齊,在配套設(shè)施愈發(fā)成熟的階段,難度恐怕只會(huì)不降反增。真正的增量,仍在頂層設(shè)計(jì)的創(chuàng)新之中。

所以,與其說是AI擠占了人的創(chuàng)新空間,倒不如說是AI拉高了有效創(chuàng)新的門檻:設(shè)計(jì)AI,或者能超越AI創(chuàng)意的設(shè)計(jì),才是大模型時(shí)代的有效增量。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

OpenAI

  • 微軟暫停部分OpenAI威斯康星州數(shù)據(jù)中心建設(shè)
  • 奧特曼反思OpenAI過往,稱首批AI智能體將“加入勞動(dòng)力市場(chǎng)”

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

OpenAI為什么總是領(lǐng)先一個(gè)版本

Sora,AI視頻的GPT時(shí)刻。

文 | 藍(lán)媒匯  陶然

編輯 | 魏曉

Sora視頻模型的發(fā)布,幾乎復(fù)刻了一年半之前GPT-3初登場(chǎng)時(shí)的AI圈盛況:

突然出現(xiàn),引起熱議,廣為震驚。

北京時(shí)間2月16日,在沒有任何消息外泄、事先預(yù)告的情況下,OpenAI在社交平臺(tái)X(原推特)發(fā)帖,首次對(duì)外公布了名為Sora的文生視頻AI模型。

一句“Introducing Sora, our text-to-video model(介紹一下Sora,我們的文本轉(zhuǎn)視頻模型)”,切入正題之簡(jiǎn)短,比起宣發(fā),更像是一則告知:是的,我們又掏出大的來了。

之后,便是對(duì)Sora模型的能力介紹:Sora可以創(chuàng)建長(zhǎng)達(dá)60秒的視頻,其中包含高度詳細(xì)的場(chǎng)景、復(fù)雜的攝像機(jī)運(yùn)動(dòng)以及充滿活力、情感的多個(gè)角色。

還附上了演示案例的對(duì)應(yīng)Prompt(提示詞):美麗、白雪皚皚的東京城很繁華。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個(gè)人享受美麗的雪天并在附近的攤位購(gòu)物。美麗的櫻花花瓣隨著雪花在風(fēng)中飛舞。

對(duì)于Sora,業(yè)界評(píng)價(jià)并不統(tǒng)一:

有人100%認(rèn)可,也有人120%、200%認(rèn)可。

360創(chuàng)始人周鴻祎發(fā)文稱,Sora意味著實(shí)現(xiàn)通用人工智能可能從10年縮短至1年,該模型展現(xiàn)的不僅是視頻制作的能力,還展現(xiàn)了大模型對(duì)真實(shí)世界有了理解和模擬之后,會(huì)帶來新的成果和突破。

英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan將Sora稱作是視頻生成領(lǐng)域的GPT-3時(shí)刻:Sora是一個(gè)“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”,一個(gè)可學(xué)習(xí)的模擬器或“世界模型”。

高強(qiáng)度網(wǎng)上沖浪且一向心直口快的馬斯克則直接打出gg human(人類輸了)。

暫且不去深究后續(xù)影響到底是積極還是消極,能給AI、影視、社媒等一眾行業(yè)同步帶來顛覆性王炸、劃時(shí)代之感的,又是OpenAI,總是OpenAI。

像是一群工程師還在討論如何進(jìn)一步完善登月計(jì)劃,OpenAI的團(tuán)隊(duì)已經(jīng)從火星傳回來一組自拍——他們總是領(lǐng)先一個(gè)版本,為什么?

前文英偉達(dá)AI研究院科學(xué)家Jim Fan對(duì)于Sora的評(píng)價(jià),從技術(shù)層面來看很有參考性:他將Sora定義為物理引擎和世界模型。傳統(tǒng)意義上的視頻畫面是二維,而人們身處的物理世界是三維的。

這成為了AI視頻模型設(shè)計(jì)之初的理念區(qū)別:在生成視頻的過程中,AI的作用到底應(yīng)該是將多段視頻片段拆分組合,還是應(yīng)該作為一個(gè)主體,構(gòu)建并記錄一個(gè)虛擬的AI空間。

OpenAI的選擇是后者。

其官網(wǎng)發(fā)布的Sora技術(shù)報(bào)告中,有一句話值得注意:“我們的結(jié)果表明,發(fā)展能夠模擬物理世界動(dòng)態(tài)的通用模擬器是一條充滿希望的途徑,具有前所未有的準(zhǔn)確度和現(xiàn)實(shí)感?!?/p>

做一個(gè)粗淺的理解就是,Sora不是編輯視頻,而是在生成視頻之前先建模一個(gè)空間,然后變成一個(gè)鏡頭記錄這個(gè)三維立體的虛擬空間。

立體建模能展現(xiàn)信息量遠(yuǎn)遠(yuǎn)多于平面圖,從設(shè)計(jì)思路上OpenAI就領(lǐng)先了一個(gè)維度,或者說提前了一個(gè)版本。

當(dāng)然,更多的信息量意味著更龐大的數(shù)據(jù)流,在有限算力內(nèi)跑出更好效果、在保證效果的前提下盡量節(jié)約算力,本質(zhì)上是同一個(gè)問題:AI計(jì)算效率。

但對(duì)于OpenAI來說,這些問題都有經(jīng)驗(yàn)可循——從ChatGPT到GPT-4等等項(xiàng)目的技術(shù)積累,成為OpenAI構(gòu)建Sora模型的良好地基。

受大語言模型成功案例啟發(fā),OpenAI在探索視頻模型時(shí)就在思考“如何獲得類似的好處”:大模型運(yùn)轉(zhuǎn)期間,token(詞匯單元)作為自然語言處理任務(wù)中的最小文本單位,承載著輸入信息的作用,幫助模型對(duì)文本進(jìn)行處理和理解。ChatGPT將代碼、數(shù)學(xué)以及各種不同的自然語言一并拆分為token,再交由模型對(duì)token進(jìn)行處理和理解,并能夠通過學(xué)習(xí)token之間的關(guān)系來獲取更多的語義信息。

同理,在視頻生成模型中,OpenAI也創(chuàng)造了與token對(duì)應(yīng)的數(shù)據(jù)單位“Patch”(圖像單元),將圖形語言轉(zhuǎn)化為對(duì)應(yīng)格式的Patch進(jìn)行計(jì)算,在保證模型擴(kuò)展性的同時(shí),大幅提升單位算力內(nèi)的運(yùn)算效率。

而在模型的前端,OpenAI同樣用上了自己在GPT系列模型的成果:

和文本對(duì)話類似,訓(xùn)練文生視頻的過程中,除了需要視頻素材案例之外,同樣需要大量對(duì)應(yīng)的文字說明。OpenAI采用了最初在DALL·E 3中提出的“重新加標(biāo)題”模式,用具備高度描述性的標(biāo)題生成器為訓(xùn)練集中的視頻素材生成文字說明。生成結(jié)果也證明了,在制作期間為素材添加額外的說明,可以提高包括準(zhǔn)確性在內(nèi)的整體視頻質(zhì)量。

此外,仿照DALL·E 3的做法,OpenAI還另外使用GPT對(duì)用戶輸入的簡(jiǎn)短提示詞進(jìn)行了更便于AI理解的擴(kuò)寫,把用戶輸入的文字?jǐn)U充成更長(zhǎng)、更詳盡的說明,再交由視頻生成模型進(jìn)行處理。

對(duì)于OpenAI這類技術(shù)驅(qū)動(dòng)型公司來說,經(jīng)驗(yàn)和技術(shù)的積累都是加速度,有跡可循的成功經(jīng)驗(yàn)疊加團(tuán)隊(duì)自身對(duì)AI概念領(lǐng)先理解,讓OpenAI總是能踩在自己的肩膀向上,或是推著自己加速向前。

比技術(shù)領(lǐng)先更可怕或者說更值得友商在意的,是這種領(lǐng)先往往會(huì)成為慣性,一步快步步快。指望靠加速追趕和對(duì)標(biāo)與OpenAI看齊,在配套設(shè)施愈發(fā)成熟的階段,難度恐怕只會(huì)不降反增。真正的增量,仍在頂層設(shè)計(jì)的創(chuàng)新之中。

所以,與其說是AI擠占了人的創(chuàng)新空間,倒不如說是AI拉高了有效創(chuàng)新的門檻:設(shè)計(jì)AI,或者能超越AI創(chuàng)意的設(shè)計(jì),才是大模型時(shí)代的有效增量。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。