文|硅谷101
Sora,OpenAI的人工智能AI生成式視頻大模型,在2024年2月15日一經(jīng)發(fā)布,就引發(fā)了全球關(guān)注,硅谷AI視頻論文作者(非Sora)這樣評價(jià):相當(dāng)好,這是毋庸置疑的No.1。
Sora好在哪里?生成式AI視頻的發(fā)展挑戰(zhàn)在哪里?OpenAI的視頻模型一定是正確的路線嗎?所謂的“世界模型”達(dá)成共識了嗎?這期視頻,我們通過與硅谷一線AI從業(yè)人員的采訪,深度聊聊生成式AI視頻大模型的不同派系發(fā)展史,大家的爭議和未來路線。
AI生成視頻這個(gè)題我們其實(shí)去年就想做了,因?yàn)楫?dāng)時(shí)跟很多人聊天,包括跟VC投資人聊的時(shí)候,發(fā)現(xiàn)其實(shí)大家對AI視頻模型和ChatGPT這種大語言模型的區(qū)別并不是很清楚。但是為啥沒做呢,因?yàn)樵谌ツ昴甑?,市場中做得最好的也就是runway這家公司旗下的Gen1和Gen2兩種視頻生成視頻以及文字生成視頻的功能,但我們生成出來的效果... 有點(diǎn)一言難盡。
比如說,我們用runway生成的一個(gè)視頻,prompt提示詞是”super mario walking in a desert”(超級馬里奧漫步于沙漠中),結(jié)果出來的視頻是這樣的:
怎么看怎么像馬里奧跳躍在月球上。無論是重力還是摩擦力,物理學(xué)在這段視頻里好像突然不復(fù)存在。
然后我們嘗試了另外一個(gè)提示詞,“A group of people walking down a street at night with umbrellas on the windows of stores.”(雨夜的大街上,一群人走在商鋪窗戶檐的傘下)這段提示詞也是一個(gè)投資人Garrio Harrison嘗試過的,結(jié)果出來的視頻,是這樣的:
你看這空中漂浮的雨傘,是不是很詭異... 但這已經(jīng)是去年代表著最領(lǐng)先技術(shù)的runway了。之后華人創(chuàng)始人Demi Guo創(chuàng)立的Pika Labs火了一陣,被認(rèn)為比runway效果稍好一些,但依然受制于3-4秒的長度顯示,并且生成的視頻仍然存在視頻理解邏輯、手部構(gòu)圖等缺陷問題。
所以,在OpenAI發(fā)布Sora模型之前,生成式AI視頻模型并沒有像ChatGPT、Midjourney這樣的聊天和文生圖應(yīng)用一樣引發(fā)全球關(guān)注,很大原因就是因?yàn)樯梢曨l的技術(shù)難度非常高,視頻是二維空間+時(shí)間,從靜態(tài)到動(dòng)態(tài),從平面到不同時(shí)間片段下的平面顯示出的立體效果,不但需要強(qiáng)大的算法和算力,還需要解決一致性、連貫性、物理合理性、邏輯合理性等等一系列的復(fù)雜問題。
所以,生成式視頻大模型這個(gè)選題,一直都在我們硅谷101的選題單上,但一直拖著沒做,想等生成式AI視頻模型有一個(gè)重大突破的時(shí)候,我們再來做這個(gè)選題,結(jié)果沒想到,這么快,這個(gè)時(shí)刻,就來了。
01 生成式AI視頻的ChatGPT時(shí)刻?
Sora的展示,毫無疑問是吊打此前的runway和pika labs的。
首先,最大的突破之一,很直觀的就是:生成視頻長度大大的延長了。之前,runway和pika都只能生成出3-4秒的視頻,太短了,所以之前能出圈的AI視頻作品,就只有一些快節(jié)奏的電影預(yù)告片,因?yàn)槠渌枰L一些素材的用途根本無法被滿足。
而在runway和pika上,如果需要更長的視頻,你就需要自己不斷提示疊加視頻時(shí)長,但我們視頻后期剪輯師Jacob就發(fā)現(xiàn),這會(huì)出現(xiàn)一個(gè)大問題。
Jacob,硅谷101視頻后期剪輯師:
痛點(diǎn)就是你在不斷往后延長的時(shí)候,它后面的視頻會(huì)出現(xiàn)變形,就會(huì)導(dǎo)致前后視頻畫面的不一致,那這段素材就用不了了。
而Sora最新展示的論文和demo中表示,可以根據(jù)提示詞,直接生成1分鐘左右的視頻場景。與此同時(shí),Sora會(huì)兼顧視頻中人物場景的變換以及主題的一致性。這讓我們的剪輯師看了之后,也直呼興奮。
Jacob,硅谷101視頻后期剪輯師:(Sora)其中有一個(gè)視頻是一個(gè)女孩走在東京的街頭... 對我來說,這個(gè)是很厲害的。所以,就算在視頻動(dòng)態(tài)的運(yùn)動(dòng)情況下,隨著空間的移動(dòng)和旋轉(zhuǎn),Sora視頻中出現(xiàn)的人物和物體會(huì)保持場景一致性的移動(dòng)。
第三,Sora可以接受視頻,圖像或提示詞作為輸入,模型會(huì)根據(jù)用戶的輸入來生成視頻,比如,公布出demo中的一朵爆開的云。這意味著,Sora模型可以基于靜態(tài)圖像來制作動(dòng)畫,做到在時(shí)間上向前或者向后來擴(kuò)展視頻。
第四,Sora可以讀取不同的無論是寬屏還是垂直視頻、進(jìn)行采樣,也可以根據(jù)同一個(gè)視頻去輸出不同尺寸的視頻,并且保持風(fēng)格穩(wěn)定,比如說這個(gè)小海龜?shù)臉悠?。這其實(shí)對我們視頻后期的幫助是非常大的,現(xiàn)在Youtube和B站等1920*1080p橫屏視頻,我們需要重新剪成垂直1080*1920的視頻來適配抖音和Tiktok等短視頻平臺(tái),但可以想象,之后也許就能通過Sora一鍵AI轉(zhuǎn)換,這也是我很期待的功能。
第五,遠(yuǎn)距離相干性和時(shí)間連貫性更強(qiáng)了。此前,AI生成視頻有個(gè)很大的困難,就是時(shí)間的連貫性,但Sora能很好的記住視頻中的人和物體,即使被暫時(shí)擋住或移出畫面,之后再出現(xiàn)的時(shí)候也能按照物理邏輯地讓視頻保持連貫性。比如說Sora公布的這個(gè)小狗的視頻,當(dāng)人們走過它,畫面被完全擋住,再出現(xiàn)它的時(shí)候,它也能自然地繼續(xù)運(yùn)動(dòng),保持時(shí)間和物體的連貫。
第六,Sora模型已經(jīng)可以簡單地模擬世界狀態(tài)的動(dòng)作。比如說,畫家在畫布上留下新的筆觸,這些筆觸會(huì)隨著時(shí)間的推移而持續(xù)存在,或者一個(gè)人吃漢堡的時(shí)候會(huì)留下漢堡上的咬痕。有比較樂觀的解讀認(rèn)為,這意味著模型具備了一定的通識能力、能“理解”運(yùn)動(dòng)中的物理世界,也能夠預(yù)測到畫面的下一步會(huì)發(fā)生什么。
因此,以上這幾點(diǎn)Sora模型帶來的震撼更新,極大地提高了外界對生成式AI視頻發(fā)展的期待和興奮值,雖然Sora也會(huì)出現(xiàn)一些邏輯錯(cuò)誤,比如說貓出現(xiàn)三只爪子,街景中有不符合常規(guī)的障礙物,人在跑步機(jī)上的方向反了等等,但顯然,比起之前的生成視頻,無輪是runway還是pika還是谷歌的videopoet,Sora都是絕對的領(lǐng)先者,而更重要的是,OpenAI似乎通過Sora想證明,堆算力堆參數(shù)的“大力出奇跡”方式也可以適用到生成式視頻上來,并且通過擴(kuò)散模型和大語言模型的整合,這樣的模型新路線,來形成所謂的“世界模型”的基礎(chǔ),而這些觀點(diǎn),也在AI屆引發(fā)了極大的爭議和討論。
接下來,我們就來試圖回顧一下生成式AI大模型的技術(shù)發(fā)展之路,以及試圖解析一下,Sora的模型是怎么運(yùn)作的,它到底是不是所謂的“世界模型”?
02 擴(kuò)散模型技術(shù)路線:Google Imagen,Runway,Pika Labs
AI生成視頻的早期階段,主要依賴于GAN(生成式對抗網(wǎng)絡(luò))和VAE(變分自編碼器)這兩種模型。但是,這兩種方法生成的視頻內(nèi)容相對受限,相對的單一和靜態(tài),而且分辨率往往不太行,完全沒辦法進(jìn)行商用。所以這兩種模型我們就先不講了哈。
之后,AI生成視頻就演變成了兩種技術(shù)路線,一種是專門用于視頻領(lǐng)域的擴(kuò)散模型,一種則是Transformer模型。我們先來說說擴(kuò)散模型的路線,跑出來的公司就有Runway和Pika Labs等等。
03 什么是擴(kuò)散模型?
擴(kuò)散模型的英文是Diffusion Model。很多人不知道,如今最重要的開源模型Stable Diffusion的原始模型就是由Runway和慕尼黑大學(xué)團(tuán)隊(duì)一起發(fā)布的,而Stable Diffusion本身也是Runway核心產(chǎn)品—視頻編輯器Gen-1和Gen-2背后的底層技術(shù)基礎(chǔ)。
Gen-1模型在2023年2月發(fā)布,允許大家通過輸入文本或圖像,改變原視頻的視覺風(fēng)格,例如將手機(jī)拍攝的現(xiàn)實(shí)街景變成賽博世界。而在6月,runway發(fā)布Gen-2,更近一步能將用戶輸入的文本提示直接生成為視頻。
擴(kuò)散模型的原理,大家一聽這個(gè)名字“擴(kuò)散模型”,就能稍微get到:是通過逐步擴(kuò)散來生成圖像或視頻。為了更好的給大家解釋模型原理,我們邀請到了之前Meta Make-A-Video模型的論文作者之一、目前在亞馬遜AGI團(tuán)隊(duì)從事視頻生成模型的張宋揚(yáng)博士來給我們做一個(gè)解釋。
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
之所以最開始這篇論文之所以用擴(kuò)散這個(gè)名字,是源于一個(gè)物理現(xiàn)象,就是說比如說我們把墨水滴到一杯水里面去,墨水它會(huì)散開,這個(gè)東西叫擴(kuò)散。這個(gè)過程本身物理上是不可逆的,但是我們AI可以學(xué)習(xí)這么一個(gè)過程,把這個(gè)過程給逆過來。它類比到圖片里面來說,就是一個(gè)圖片,它是不斷加噪聲不斷加噪聲,然后它會(huì)變成一個(gè)類似于馬賽克這樣的一個(gè)效果。它是一個(gè)純噪聲的一張圖片。然后我們學(xué)習(xí)怎么把這個(gè)噪點(diǎn)變成一張?jiān)嫉膱D片。
我們訓(xùn)練這么樣的一個(gè)模型,直接去一步完成的話,這個(gè)可能會(huì)很難,它分成了很多步,比如我分成1000步,比如說我加一點(diǎn)點(diǎn)噪聲,它能夠還原出去噪聲后是什么樣子,然后噪聲加得比 較多的時(shí)候,我該怎么去用這個(gè)模型怎么去預(yù)測噪聲?就是它分了很多步,然后逐漸地去把這噪聲慢慢地去掉,它迭代式地把這個(gè)噪聲慢慢給去掉。比如說原來是一個(gè)水跟墨已經(jīng)完全混合在一起了,你想辦法怎么去預(yù)測它,一步一步它如何再變回之前的那一滴墨水的樣子。就是它是一個(gè)擴(kuò)散的一個(gè)逆過程。
張宋揚(yáng)博士解釋得很形象,擴(kuò)散模型的核心思想是通過不斷地向原始噪聲引入隨機(jī)性,逐步生成逼真的圖像或視頻。在而這個(gè)過程分成了四步:
1)初始化:擴(kuò)散模型開始于一個(gè)隨機(jī)的噪聲圖像或視頻幀作為初始輸入。
2)擴(kuò)散過程(也被稱為前向過程forward process):擴(kuò)散過程的目標(biāo)是讓圖片變得不清晰,最后變成完全的噪聲。
3)反向過程(reverse process,又被稱為backward diffusion):這時(shí)候我們會(huì)引入“神經(jīng)網(wǎng)絡(luò)”,比如說基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的UNet結(jié)構(gòu),在每個(gè)時(shí)間步預(yù)測“要達(dá)到現(xiàn)在這一幀模糊的圖像,所添加的噪聲”,從而通過去除這種噪聲來生成下一幀圖像,以此來形成圖像的逼真內(nèi)容。
4)重復(fù)步驟:重復(fù)上述步驟直到達(dá)到所需的生成圖像或視頻的長度。
以上是video to video或者是picture to video的生成方式,也是runway Gen1的大概底層技術(shù)運(yùn)行方式。如果是要達(dá)到輸入提示詞來達(dá)到text to video,那么就要多加幾個(gè)步驟。
比如說我們拿谷歌在2022年中旬發(fā)布的Imagen模型來舉例:我們的提示詞是a boy is riding on the Rocket,騎著火箭的男孩。這段提示詞會(huì)被轉(zhuǎn)換為tokens(標(biāo)記)并傳遞給編碼器text encoder。谷歌 IMAGEN模型接著用T5-XXL LLM編碼器將輸入文本編碼為嵌入(embeddings)。這些嵌入代表著我們的文本提示詞,但是以機(jī)器可以理解的方式進(jìn)行編碼。
之后這些“嵌入文本”會(huì)被傳遞給一個(gè)圖像生成器image generator,這個(gè)圖像生成器會(huì)生成64x64分辨率的低分辨率圖像。之后,IMAGEN模型利用超分辨率擴(kuò)散模型,將圖像從64x64升級到256x256,然后再加一層超分辨率擴(kuò)散模型,最后生成與我們的文本提示緊密結(jié)合的 1024x1024 高質(zhì)量圖像。
簡單總結(jié)來說,在這個(gè)過程中,擴(kuò)散模型從隨機(jī)噪聲圖像開始,在去噪過程中使用編碼文本來生成高質(zhì)量圖像。
04 擴(kuò)散模型優(yōu)劣勢
而生成視頻為什么要比生成圖片困難這么多?
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:它的原理實(shí)際上還是一樣的,只不過唯一一個(gè)區(qū)別就是多了一個(gè)時(shí)間軸。就是剛剛我們說的圖片,它是一個(gè)2D的,它是高度跟寬度。然后視頻它多一個(gè)時(shí)間軸,它就是一個(gè)3D的,它就是高度、寬度還有一個(gè)時(shí)間。然后它在學(xué)習(xí)這個(gè)擴(kuò)散的逆過程的過程當(dāng)中,就是相當(dāng)于以前是一個(gè)2D的逆過程,現(xiàn)在變成一個(gè)3D的逆過程,就是這么一個(gè)區(qū)別。
所以說圖片上的存在的問題,比如說像這些生成的人臉?biāo)遣皇钦鎸?shí)???那我們?nèi)绻麍D片存在這樣的問題,我們視頻也一樣會(huì)存在這樣的問題。對于視頻來說,它有一些它有些獨(dú)特的一些問題,就比如說剛才像你說的這個(gè)畫面的主體是不是保持一致的?我覺得目前對于像風(fēng)景這樣的,其實(shí)效果都還可以,然后但是如果涉及到人的話,因?yàn)槿说倪@些要求可能會(huì)更精細(xì),所以說人的難度會(huì)更高,這是一個(gè)問題。然后還有一個(gè)目前的難點(diǎn),我覺得也是大家都在努力的一個(gè)方向,就是怎么把視頻變得更長。因?yàn)槟壳皝碚f的話,只生成2秒、3秒、4秒這樣的視頻,其實(shí)遠(yuǎn)遠(yuǎn)滿足不了現(xiàn)在的應(yīng)用場景。
擴(kuò)散模型比起之前的GAN等模型來說,有三個(gè)主要的優(yōu)點(diǎn):
第一,穩(wěn)定性:訓(xùn)練過程通常更加穩(wěn)定,不容易陷入模式崩潰或模式塌陷等問題。
第二,生成圖像質(zhì)量: 擴(kuò)散模型可以生成高質(zhì)量的圖像或視頻,尤其是在訓(xùn)練充分的情況下,生成結(jié)果通常比較逼真。
第三,無需特定架構(gòu): 擴(kuò)散模型不依賴于特定的網(wǎng)絡(luò)結(jié)構(gòu),兼容性好,很多不同類型的神經(jīng)網(wǎng)絡(luò)都可以拿來用。
然而,擴(kuò)散模型也有兩大主要缺點(diǎn),包括:
首先,訓(xùn)練成本高:與一些其他生成模型相比,擴(kuò)散模型的訓(xùn)練可能會(huì)比較昂貴,因?yàn)樗枰诓煌肼暢潭鹊那闆r下學(xué)習(xí)去燥,需要訓(xùn)練的時(shí)間更久。
其次,生成花費(fèi)的時(shí)間更多。因?yàn)樯蓵r(shí)需要逐步去燥生成圖像或視頻,而不是一次性地生成整個(gè)樣本。
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
就是我們其實(shí)現(xiàn)在無法生成長的視頻一個(gè)很重要原因就是,我們的顯存是有限的。生成一張圖片可能占用一部分的顯存,然后你如果生成16張圖片,就可能差不多把這顯存給占滿了。當(dāng)你需要生成更多張圖片的時(shí)候,你就得想辦法怎么去,既考慮之前已經(jīng)生成的這些信息,然后再去預(yù)測后面該生成什么樣的信息。它首先在模型上面就提了一個(gè)更高的要求,當(dāng)然算力上面也是一個(gè)問題,就是獲取過很多年之后,我們的顯存會(huì)非常的大,可能我們也就不存在這樣的問題了,也是有可能的,但是就目前來說,當(dāng)下我們是需要一個(gè)更好的一個(gè)算法,但是如果有更好硬件可能這個(gè)問題就不存在。
所以,這注定了目前的視頻擴(kuò)散模型本身可能不是最好的算法,雖然runway和PikaLabs等代表公司一直在優(yōu)化算法。
我們接下來,聊聊另外一個(gè)派別:基于Transformer架構(gòu)的大語言模型生成視頻技術(shù)路線。
05 大語言模型生成視頻技術(shù)路線(VideoPoet)
最后,谷歌在2023年12月底發(fā)布了基于大語言模型的生成式AI視頻模型VideoPoet,這在當(dāng)時(shí)被視為生成視頻領(lǐng)域中,擴(kuò)散模型之外的另外一種解法和出路。它是這么個(gè)原理呢?
大語言模型如何生成視頻?
大語言模型生成視頻是通過理解視頻內(nèi)容的時(shí)間和空間關(guān)系來實(shí)現(xiàn)的。谷歌的VideoPoet是一個(gè)利用大語言模型來生成視頻的例子。這個(gè)時(shí)候,讓我們再次請出生成式AI科學(xué)家張宋揚(yáng)博士,來給我們做一個(gè)生動(dòng)的解釋。
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
然后大語言模型這個(gè)東西,原理上完全不一樣,它最一開始是用在文本上面,用在文本上面就是說我預(yù)測下一個(gè)單詞是什么,就比如說“我愛說實(shí)話”,然后最后一個(gè)“我愛說實(shí)”,然后最后一個(gè)字是什么?你猜是什么字?然后可能你給的這些前面的字越多,你可能越容易猜到后面。但是如果你給的字比較少,你可能發(fā)揮空間會(huì)更多,它是這么樣一個(gè)過程。
然后這個(gè)思路帶到了視頻當(dāng)中,那就是我們可以學(xué)一個(gè)圖片的詞匯,或者說是視頻的詞匯。就是說我們可以把圖片橫著切,比如說橫著切16刀,豎著切16刀,然后把每一個(gè)小方塊、小格子當(dāng)成一個(gè)詞,然后把它輸?shù)竭@個(gè)大語言模型當(dāng)中,讓他們學(xué)習(xí)。比如說之前你已經(jīng)有一個(gè)很好的一個(gè)大語言模型了,然后你去學(xué)習(xí)怎么大語言模型的這些詞跟這些文本的詞或者視頻的詞進(jìn)行一個(gè)交互,它們之間的進(jìn)行一個(gè)關(guān)聯(lián),是一個(gè)什么樣的關(guān)聯(lián)?你去學(xué)一些這個(gè)東西,然后這樣的話,我們就可以利用這些大語言模型,讓它可以去做一些視頻的任務(wù),或者是文本的一些任務(wù)。
簡單來說,基于大語言模型的Videopoet是這樣運(yùn)作的:
1)輸入和理解:首先Videopoet接收文本,聲音,圖片,深度圖,光流圖,或者有待編輯的視頻作為輸入。
2)視頻和聲音的編碼:因?yàn)槲谋咎烊痪褪请x散的形式,大語言模型自然而然就要求輸入和輸出必須是離散的特征。然而視頻和聲音是連續(xù)量,為了讓大語言模型也能讓圖片,視頻或者聲音作為輸入和輸出,這里Videopoet將視頻和聲音編碼成離散的token。在深度學(xué)習(xí)中,token是一個(gè)非常重要的概念, 它是指一組符號或標(biāo)識符,用于表示一組數(shù)據(jù)或信息中的一個(gè)特定元素。在Videopoet的例子中,通俗一點(diǎn)可以理解成視頻的單詞和聲音的單詞。
3)模型訓(xùn)練和內(nèi)容生成:有了這些Token詞匯,就可以根據(jù)用戶給的輸入,像學(xué)習(xí)文本token那樣,訓(xùn)練一個(gè)Transformer去學(xué)習(xí)逐個(gè)預(yù)測視頻的token,模型就會(huì)開始生成內(nèi)容。對于視頻生成,這意味著模型需要?jiǎng)?chuàng)建連貫的幀序列,這些幀不僅在視覺上符合邏輯,還要在時(shí)間上保持連續(xù)性。
4)優(yōu)化和微調(diào):生成的視頻可能需要進(jìn)一步的優(yōu)化和微調(diào),以確保質(zhì)量和連貫性。這可能包括調(diào)整顏色、光照和幀之間的過渡等。VideoPoet利用深度學(xué)習(xí)技術(shù)來優(yōu)化生成的視頻,確保它們既符合文本描述,又在視覺上吸引人。
5)輸出:最后,生成的視頻會(huì)被輸出,供最終用戶觀看。
但是,大語言模型生成視頻的路線,也是優(yōu)點(diǎn)和缺點(diǎn)并存的。
06 大語言模型生成視頻優(yōu)劣勢
先來說說優(yōu)點(diǎn):
1)高度理解能力: 基于Transformer架構(gòu)的大語言模型能夠處理和理解大量的數(shù)據(jù),包括復(fù)雜的文本和圖像信息。這使得模型能具有跨模態(tài)的理解和生成能力,能夠很好學(xué)到文本和圖片視頻不同模態(tài)之間關(guān)聯(lián)的能力。這使得它們在將文本描述轉(zhuǎn)換成視頻內(nèi)容時(shí),能夠生成更準(zhǔn)確和相關(guān)的輸出。
2)處理長序列數(shù)據(jù): 由于自注意力機(jī)制,Transformer模型特別擅長處理長序列數(shù)據(jù),這對于視頻生成尤其重要,因?yàn)橐曨l本質(zhì)上是長序列的視覺表示。
3)Transformer的可擴(kuò)展性:通常來說模型越大,擬合的能力就越強(qiáng)。但當(dāng)模型大到一定程度時(shí),卷積神經(jīng)網(wǎng)絡(luò)性能受模型增大帶來的增益會(huì)放緩甚至停止,而Transformer仍能持續(xù)增長。Transformer在大語言模型已經(jīng)證明了這一點(diǎn),如今在圖片視頻生成這一領(lǐng)域也逐漸嶄露頭角。
再來說說缺點(diǎn):
1)資源密集型:用大語言模型生成視頻,特別是高質(zhì)量視頻,需要大量的計(jì)算資源,因?yàn)橛么笳Z言模型的路線是將視頻編碼成token,往往會(huì)比一句話甚至一段話的詞匯量要大的多,同時(shí),如果一個(gè)一個(gè)的去預(yù)測,會(huì)讓時(shí)間的開銷非常大。也就是說,這可能使得Transformer模型的訓(xùn)練和推理過程變得昂貴和時(shí)間消耗大。
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
有一個(gè)問題我覺得挺本質(zhì)的,就是transformer它不夠快,這個(gè)是很本質(zhì)的一個(gè)問題,因?yàn)閠ransformer它一個(gè)小方塊一個(gè)小方塊地預(yù)測,擴(kuò)散模型直接一張圖就出來了,所以transformer肯定會(huì)比較慢的。
陳茜,硅谷101視頻主理人:
太慢了有一個(gè)具象的一個(gè)數(shù)據(jù)嗎?就是能慢多少?
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
就比如說我直接出一張圖,diffusion比如出一張圖就是1,它也需要一些迭代過程。然后比如說我用四步,它就是四步去生成出來,咱就是4。現(xiàn)在目前做得好的話,四步我看有做的效果還是不錯(cuò)的。然后但是你要是用transformer的話,比如說你畫16*16的方格,那就是16*16,那就等于256了,就是那個(gè)速度。
4是相當(dāng)于我做去噪迭代了四次。然后transformer的話,它是相當(dāng)于我去預(yù)測一張圖片,比如說是16*16的話,我就預(yù)測256個(gè)詞。他們的量綱肯定不一樣,但是他們的復(fù)雜度你是可以看出來的。就是diffusion模型,它的復(fù)雜度是一個(gè)常數(shù)集。但是transformer的那個(gè)復(fù)雜度,它實(shí)際上是一個(gè)寬度x高度,復(fù)雜度會(huì)不一樣。所以說從復(fù)雜度角度來說,肯定是擴(kuò)散模型會(huì)更優(yōu)一些。然后具體我覺得這東西可能你如果是圖片越大的話,分辨率越高的話,transformer的問題可能會(huì)越大。
Transformer模型的另外一些問題還包括:
2)質(zhì)量波動(dòng):盡管Transformer模型能夠生成創(chuàng)造性的視頻內(nèi)容,但輸出的質(zhì)量可能不穩(wěn)定,特別是對于復(fù)雜的或未充分訓(xùn)練的模型。
3)數(shù)據(jù)依賴性:Transformer模型的性能在很大程度上取決于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性。如果訓(xùn)練數(shù)據(jù)有限或有偏差,生成的視頻可能無法準(zhǔn)確反映輸入的意圖或在多樣性上存在限制。
4)理解和邏輯限制:雖然Transformer模型在理解文本和圖像內(nèi)容方面取得了進(jìn)步,但它們可能仍然難以完全把握復(fù)雜的人類情感、幽默或細(xì)微的社會(huì)文化信號,這可能會(huì)影響生成視頻的相關(guān)性和吸引力。
5)倫理和偏見問題:自動(dòng)視頻生成技術(shù)可能會(huì)無意中復(fù)制或放大訓(xùn)練數(shù)據(jù)中的偏見,導(dǎo)致倫理問題。
不過說到第五點(diǎn),我突然想起來最近的這么一個(gè)新聞,說谷歌的多模態(tài)大模型Gemini中,無論你輸入什么人,出來的都是有色人種,包括美國開國元?jiǎng)祝谌伺园姹镜慕袒?,維京人也是有色人種,生成的Elon Musk也是黑人。
這背后的原因可能是谷歌為了更正Transformer架構(gòu)中的偏見,給加入了AI道德和安全方面的調(diào)整指令,結(jié)果調(diào)過頭了,出了這個(gè)大烏龍。不過這個(gè)事情發(fā)生在OpenAI發(fā)布了Sora之后,確實(shí)又讓谷歌被群嘲了一番。
不過,業(yè)內(nèi)人士也指出,以上的這五點(diǎn)問題也不是transformer架構(gòu)所獨(dú)有的,目前何生成模型都可能存在這些問題,只是不同模型在不同方向的優(yōu)劣勢稍有不同。
所以,到這里總結(jié)一下,擴(kuò)散模型和Transformer模型生成視頻都有不甚令人滿意的地方,那么,身為技術(shù)最為前沿的公司OpenAI他們是怎么做的呢?誒,也許你猜到了,這兩模型各有千秋,我把它們結(jié)合在一起,會(huì)不會(huì)1+1>2呢?于是,Sora,也就是擴(kuò)散模型和Transformer模型的結(jié)合。
07 Sora的擴(kuò)散+大語言模型:1+1>2?
說實(shí)話,目前外界對Sora的細(xì)節(jié)還是未知的,現(xiàn)在也沒有對公眾開放,連waitinglit都沒有開放,只邀請了業(yè)界和設(shè)計(jì)界的極少數(shù)人來使用,產(chǎn)出的視頻也在網(wǎng)上都公開了。對于技術(shù),更多是基于OpenAI給出的效果視頻的猜測和分析。OpenAI在發(fā)布Sora當(dāng)天給出了一個(gè)比較模糊的技術(shù)解釋,但中間很多技術(shù)細(xì)節(jié)是缺失的。
但我們先從Sora公開的這篇技術(shù)解析,來看看OpenAI的擴(kuò)散+大語言模型技術(shù)路線是如何操作的。
Sora在開頭就說得很清楚:OpenAI在可變持續(xù)時(shí)間、分辨率和寬高比的視頻和圖像上“聯(lián)合訓(xùn)練文本條件擴(kuò)散模型”(text-conditional diffusion models)。同時(shí),利用對視頻和圖像潛在代碼的時(shí)空補(bǔ)丁(spacetime patches)進(jìn)行操作的Transformer架構(gòu)。
所以,Sora模型的生成的步驟包括:
第一步:視頻壓縮網(wǎng)絡(luò)
在基于大語言模型的視頻生成技術(shù)中,我們提到過把視頻編碼成一個(gè)一個(gè)離散的token,這里Sora也采用了同樣的想法。視頻是一個(gè)三維的輸入(兩維空間+一維時(shí)間),這里將視頻在三維空間中均分成一個(gè)一個(gè)小的token,被OpenAI稱為“時(shí)空補(bǔ)丁”(spacetime patches)。
第二步:文本理解
因?yàn)镾ora有OpenAI文生圖模型DALLE3的加持,可以將許多沒有文本標(biāo)注的視頻自動(dòng)進(jìn)行標(biāo)注,并用于視頻生成的訓(xùn)練。同時(shí)因?yàn)橛蠫PT的加持,可以將用戶的輸入擴(kuò)寫成更加詳細(xì)的描述,使得生成的視頻獲得更加貼合用戶的輸入,并且transformer框架能幫助Sora模型更有效地學(xué)習(xí)和提取特征,獲取和理解大量的細(xì)節(jié)信息,增強(qiáng)模型對未見過數(shù)據(jù)的泛化能力。
比如說,你輸入“一個(gè)卡通袋鼠在跳disco”,GPT會(huì)幫助聯(lián)想說,得在迪廳,帶個(gè)墨鏡,穿個(gè)花襯衫,燈光閃耀,背后還有一堆各種動(dòng)物,在一起蹦跶,等等等等來發(fā)揮聯(lián)想能力解釋輸入的prompt。所以,GPT能展開的解釋和細(xì)節(jié)豐富程度,將會(huì)決定Sora生成得有多好。而GPT模型就是OpenAI自家的,不像其它AI視頻startup公司需要調(diào)用GPT模型,OpenAI給Sora的GPT架構(gòu)的調(diào)取效率和深廣度,肯定是最高的,這可能也是為什么Sora會(huì)在語義理解上做得更好。
第三步:Diffusion Transformer成像
Sora采用了Diffusion和Transformer結(jié)合的方式。
之前我們在基于大語言模型的視頻生成技術(shù)中提到過Transformer具有較好的可拓展性。意思就是說Transformer的結(jié)構(gòu)會(huì)隨著模型的增大,效果會(huì)越來越好。這一特性并不是所有模型都具備的。比如當(dāng)模型大到一定程度時(shí),卷積神經(jīng)網(wǎng)絡(luò)性能受模型增大帶來的增益會(huì)放緩甚至停止,而Transformer仍能持續(xù)增長。
很多人會(huì)注意到,Sora在保持畫面物體的穩(wěn)定性、一致性、畫面旋轉(zhuǎn)等等,都表現(xiàn)出穩(wěn)定的能力,遠(yuǎn)超runway,Pika,Stable Video等基于Diffusion模型所呈現(xiàn)的視頻模型。
還記得我們在說擴(kuò)散模型的時(shí)候也說道:視頻生成的挑戰(zhàn)在于生成物體的穩(wěn)定性一致性。這是因?yàn)?,雖然Diffusion是視頻生成技術(shù)的主流,但之前的工作一直局限在基于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),并沒有發(fā)揮出Diffusion全部潛力,而Sora很巧妙的結(jié)合了Diffusion和Transformer這兩者的優(yōu)勢,讓視頻生成技術(shù)獲得了更大的提升。
更深一步說,Sora生成的視頻連續(xù)性可能是通過Transformer Self- Attention自注意力機(jī)制獲得的。Sora可以將時(shí)間離散化,然后通過自注意力機(jī)制理解前后時(shí)間線的關(guān)系。而自注意力機(jī)制的原理就是每個(gè)時(shí)間點(diǎn)和其他所有時(shí)間點(diǎn)產(chǎn)生聯(lián)系,這是Diffusion Model所不具備的。
目前外界有一些觀點(diǎn)猜測,在我們之前說到的擴(kuò)散模型的第三步驟中,Sora選擇將U-Net架構(gòu)替換成了Transformer架構(gòu)。這讓Diffusion擴(kuò)散模型作為一個(gè)畫師開始逆擴(kuò)散、畫畫的時(shí)候,在消除噪音的過程中,能根據(jù)關(guān)鍵詞特征值對應(yīng)的可能性概率,在OpenAI海量的數(shù)據(jù)庫中,找到更貼切的部分,來進(jìn)行下筆。
我在采訪另一位AI從業(yè)者的時(shí)候,他用了另外一個(gè)生動(dòng)的例子解釋這里的區(qū)別。他說:“擴(kuò)散模型預(yù)測的是噪音,從某個(gè)時(shí)間點(diǎn)的畫面,減去預(yù)測的噪音,得到的就是最原始沒有噪音的畫面,也就是最終生成的畫面。這里更像是雕塑,就像米開朗基羅說的,他只是遵照上帝的旨意將石料上不應(yīng)該存在的部分去掉,最終他才從中創(chuàng)造出偉大的雕塑作品。而Transformer通過自注意力機(jī)制,理解時(shí)間線之間的關(guān)聯(lián),讓這尊雕塑從石座上走了下來?!笔遣皇沁€挺形象的?
最后,Sora的Transformer+Diffusion Model將時(shí)空補(bǔ)丁生成圖片,然后圖片再拼接為視頻序列,一段Sora視頻就生成了。
說實(shí)話,Transformer加擴(kuò)散模型的方法論并不是OpenAI獨(dú)創(chuàng)的,在OpenAI發(fā)布Sora之前,我們在和張宋揚(yáng)博士今年一月份采訪的時(shí)候,他就已經(jīng)提到說,Transformer加擴(kuò)散模型的方式已經(jīng)在行業(yè)中開始普遍的被研究了。
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
目前又能看到一些把transformer的模型做到跟diffusion結(jié)合,然后效果可能也不差,甚至可能論文里面有些說的可能會(huì)更好。所以說這個(gè)東西我不確定以后模型會(huì)怎么發(fā)展,我覺得可能是兩者結(jié)合的一種方式。就是transformer他們那種,比如說它預(yù)測 下一個(gè)視頻,有天然的優(yōu)勢,就是它可以預(yù)測變成的一些東西。diffusion雖然質(zhì)量高,但是diffusion目前很多做法還是生成固定幀數(shù)的。怎么把兩個(gè)東西結(jié)合在一起,是一個(gè)后面會(huì)研究的一個(gè)過程。
所以,這也解釋了為什么OpenAI現(xiàn)在要發(fā)布Sora,其實(shí)在OpenAI的論壇上,Sora方澄清說,Sora現(xiàn)在并不是一個(gè)成熟的產(chǎn)品,所以,它不是已發(fā)布的產(chǎn)品,也不公開,沒有等候名單,也沒有預(yù)計(jì)的發(fā)布日期。
外界有分析認(rèn)為,Sora還不成熟,OpenAI算力也不一定能承受Sora被公開,同時(shí)還有公開之后的假新聞安全和道德問題,所以Sora不一定會(huì)很快正式發(fā)布,但因?yàn)閠ransformer加diffusion已經(jīng)成為了業(yè)內(nèi)普遍嘗試的方向,這個(gè)時(shí)候,OpenAI需要展示出Sora的能力,來在目前競爭日益白熱化的生成式AI視頻領(lǐng)域中重聲自己行業(yè)的領(lǐng)先地位。
而有了OpenAI的驗(yàn)證之后,我們基本可以確定的是,AI視頻生成方向會(huì)轉(zhuǎn)變到這個(gè)新的技術(shù)結(jié)合。而OpenAI在發(fā)表的技術(shù)文章中也明確指出,在ChatGPT上的巨量參數(shù)“大力出奇跡”的方式,被證明在AI視頻生成上。
OpenAI在文章中說,“我們發(fā)現(xiàn),視頻模型在大規(guī)模訓(xùn)練時(shí)表現(xiàn)出許多有趣的涌現(xiàn)功能。這些功能使 Sora 能夠模擬現(xiàn)實(shí)世界中人、動(dòng)物和環(huán)境的某些方面。
這說明,Sora和GPT3的時(shí)候一樣,出現(xiàn)了“涌現(xiàn)”emergence,而這意味著,與GPT大語言模型一樣,AI視頻也需要更多的參數(shù),更多的GPU算力,更多的資金投入。
Scaling,依然是目前生成式AI的絕招,而這可能也意味著,生成式AI視頻也許最終也會(huì)成為大公司的游戲。
張宋揚(yáng)博士,Meta Make-A-Video模型的論文作者之一、亞馬遜AGI團(tuán)隊(duì)?wèi)?yīng)用科學(xué)家:
我覺得可能更直觀的就是相當(dāng)于你,比如說你一個(gè)視頻可能存下來是幾十個(gè)GB,然后可能到大語言模型就得大一千倍了,就得上TB了,就是大概是這么個(gè)意思,但是我覺得應(yīng)該是能看到這樣一個(gè)趨勢的,就是就雖然現(xiàn)在視頻的參數(shù)量只是在billion級。
但是像圖片里面他們之前stable diffusion模型,他們后來出了一個(gè)stable diffusion XL,他們也是把模型做大了,然后也帶來了一些比較好的一個(gè)效果,也不是說比較好的效果,就是他們能做更真實(shí)的那圖片,然后效果也會(huì)更明顯一些。我覺得這是一個(gè)趨勢,就是未來肯定會(huì)把參數(shù)量做大的,但是說它帶來的增益會(huì)有多少,也取決于你目前的這個(gè)模型的結(jié)構(gòu)以及你的數(shù)據(jù)量,你的數(shù)據(jù)是什么樣的。
以上是我們對Sora非常初步的分析,再次說明一下,因?yàn)镾ora非常多技術(shù)細(xì)節(jié)沒有公開,所以我們的很多分析也是從外部視角去做的一個(gè)猜測,如果有不準(zhǔn)確的地方,歡迎大家來糾錯(cuò),指正和探討。