文|唐辰同學
OpenAI最新發(fā)布的文生視頻大模型Sora,再一次驗證ChatGPT路線的成功:數(shù)據(jù)精確處理后大規(guī)模預訓練帶來的智能涌現(xiàn)。從官方演示視頻看,Sora能夠根據(jù)文本提示創(chuàng)建詳細的視頻,擴展現(xiàn)有視頻中的敘述以及從靜態(tài)圖像生成場景,最長能生成60秒視頻。
一時間,Sora成為OpenAI的新爆款,被全球追捧。馬斯克感嘆“人類愿賭服輸”,360集團創(chuàng)始人、董事長兼CEO周鴻祎預言“AGI實現(xiàn)將從10年縮短到1年”。
但“XX已死,AI一夜變天”、“現(xiàn)實不存在了”、“這個行業(yè)要完蛋了”等兩極分化的觀點也瞬間充斥網(wǎng)絡。觀察各種討論和信息后,整理出10個信息點,作為學習資料分享給大家。
1、為什么叫Sora?有什么含義?
Sora這個名字取自日語單詞,意為“天空”,引申含義還有“自由”。在Sora官網(wǎng)頁面,無數(shù)只紙飛機在自由飛翔,行動自主,最后匯集成一片天空的背景色。
此外,Sora這個詞在在韓語中表示海螺殼,在芬蘭語中表示砂礫,很容易讓人聯(lián)想到《海底兩萬里》的鸚鵡螺號和科幻片《沙丘》。
硅基立場提到,Sora在日語里有時候會用作動詞,意思是“用心記,而不用看任何寫下來的材料”,變化出來的詞比如“Soranjiru”, そらんじる 的意思就是“remember by heart”,這不正是Sora的能力?
官方說法是這樣,研究團隊成員蒂姆·布魯克斯和比爾·皮布爾斯介紹,選擇這個名字,是因為它能“喚起無限的創(chuàng)造潛力”。
2、現(xiàn)實不存在了?Sora到底有多炸裂!
OpenAI官方網(wǎng)站貼出了Sora創(chuàng)作的東京街頭視頻。提示詞是:
“美麗的、白雪皚皚的東京市,鏡頭穿過熙熙攘攘的城市街道,跟隨幾名行人享受美妙的雪天,有人在路邊小攤購物。絢麗的櫻花與雪花一起在風中飛舞。”
Sora制作的視頻
另一個視頻根據(jù)如下提示詞產(chǎn)生:
“幾只巨大的、毛茸茸的猛犸象,踩著白雪皚皚的地面走近,風吹動它們身上的長長毛發(fā),遠處是白雪覆蓋的高大樹木和雄偉山脈,午后的光線營造出溫暖的光芒。”
Sora制作的猛犸象視頻/OpenAI
由此可以看出,Sora讓“一句話(prompt)生成視頻”成為可能。這種能力的震撼之處在于, Sora在模擬物理世界時,能夠更準確地反映出現(xiàn)實世界的復雜性和多樣性。有了提示詞,Sora就“知道”如何用鏡頭語言講故事。
出門問問創(chuàng)始人兼CEO李志飛認為,“視頻”作為物理世界的映像,是世界模型渲染出來的結(jié)果。相比語言數(shù)據(jù),通過視頻大數(shù)據(jù)學習到的模型是“模型的模型” ,同時學到了很多物理世界規(guī)律,讓模型更加逼近模擬物理世界。
文本與視頻的區(qū)別在于,前者是理解人類的邏輯思維,后者在于理解物理世界。所以,視頻生成模型 Sora 如果能很好跟文本模型 LLM 融合,那它真有望成為世界的通用模擬器。如果有一天,這樣的系統(tǒng)自己通過模擬駕車場景,學會了在城市復雜的交通環(huán)境下開車,人類也不會奇怪。
不少從業(yè)者驚呼“現(xiàn)實不存在了”即是源于此。
3、Sora為何被稱為世界模擬器?
“文生視頻大模型”并不是一條全新的賽道。在Sora發(fā)布之前,Google、Stability AI等頭部大廠都擁有自己的文生視頻大模型。甚至誕生了垂直內(nèi)容創(chuàng)作大模型的獨角獸,例如視頻生成大模型Gen-2的開發(fā)商Runway,在2023年6月底完成由Google、Nvidia等參與的C輪融資后,估值超過15億美元。
但和ChatGPT的故事如出一轍,Sora登場就碾壓對手。在此之前,AI視頻生成領(lǐng)域的明星產(chǎn)品Runway和Pika,只能做3或4秒長的模糊視頻,角色形象也很扭曲,還得用戶輸入圖片。
主要視頻生成模型/技術(shù)對比(來源:東吳證券)
OpenAI并未單純將Sora視為視頻模型,而是作為“世界模擬器”。它能像人一樣,理解坦克是有巨大沖擊力的,坦克能撞毀汽車,而不會出現(xiàn)“汽車撞毀坦克”這樣的情況,這就是“世界模型”的強大之處。
Sora擁有三大關(guān)鍵特點:60秒超長長度、單視頻多角度鏡頭以及世界模型。其中,“世界模型”是指通過對真實物理世界的模擬,讓計算機可以像人類一樣全面、準確地“認知”世界。
Sora背后擁有兩大技術(shù)革新:時空補?。⊿pacetime Patch)技術(shù)和擴散型Transformer(Diffusion Transformer,簡稱DiT)架構(gòu)。OpenAI發(fā)現(xiàn)訓練計算量越大,樣本質(zhì)量就會越高,特別是經(jīng)過大規(guī)模訓練后,Sora展現(xiàn)出模擬現(xiàn)實世界某些屬性的“涌現(xiàn)”能力。
雖然Sora在物理規(guī)則模擬方面仍然存在不足。例如,一段展示老奶奶吹蠟燭的視頻中,蠟燭并未隨風熄滅;另一段視頻中,玻璃杯從空中墜落卻未破裂,水卻已流出。
但Sora的作品達到了驚人的高清照片級真實感,“運鏡”手法更令人難忘——圍繞同一主體實現(xiàn)遠景、中景、近景、特寫等不同鏡頭的切換。這已經(jīng)表明,通過大量數(shù)據(jù)的分析,機器能夠推斷出一些物理世界的規(guī)則,這無疑是向現(xiàn)實世界模擬邁出的重要一步。
值得一提的是,Sora所展現(xiàn)出來的“精準的物理世界還原能力”,也并不是OpenAI獨自探索的AI領(lǐng)域?!笆澜缒P汀弊钤缡怯蓤D靈獎得主、Meta首席科學家楊立昆(Yann LeCun)2023年6月提出。2023年12月,Runway宣布建造“通用世界模型”,用生成式AI模擬整個世界。馬斯克也稱,特斯拉掌握“精準還原現(xiàn)實世界物理規(guī)律的虛擬世界生成能力”快一年了。
4、Sora為何能實現(xiàn)如此震撼的效果?
Sora模型基于Transformer架構(gòu),建立在DALL·E 3和GPT模型之上,使用文本到視頻的合成技術(shù),按文本提示生成視頻。這種技術(shù)將自然語言轉(zhuǎn)換為視覺表示形式——圖像或視頻。
OpenAI在官網(wǎng)展示Sora的生成邏輯
深度神經(jīng)網(wǎng)絡依然是Sora的基礎(chǔ),它是一個帶有Transformer骨架的擴散(Diffusion)模型,AI從數(shù)據(jù)中學習并執(zhí)行復雜的任務。Sora就是從“學習”的大型視頻數(shù)據(jù)集里學會了各種風格、主題和流派。
Transformer模型本質(zhì)是一個編碼器-解碼器,輸入原始語言,生成目標語言。擴散模型的原理是先給數(shù)據(jù)添加高斯噪聲,再反向去除,從中恢復數(shù)據(jù)本貌。簡單粗暴地理解Sora的原理,就是翻譯器+搜索引擎+概率制作(內(nèi)容)。
首先,拿到提示詞后,Sora先分析文本,提取關(guān)鍵字,比如主題、動作、地點、時間和情緒,再從它的數(shù)據(jù)集里搜索與關(guān)鍵字匹配的、最合適的視頻。
其次,Sora將數(shù)據(jù)集里合適的視頻混合在一起,重新創(chuàng)建一個符合要求的視頻。在“創(chuàng)造”的過程中,它要“知道”場景中有哪些對象和角色,它們的外形,它們?nèi)绾芜\動,對象如何交互,以及受到環(huán)境影響后如何表現(xiàn)。
根據(jù)用戶的喜好,Sora會修改視頻的風格。假如用戶想要一個35毫米膠片樣式的視頻,Sora會調(diào)整效果,更改圖像的亮度、色彩和攝像機角度。這一點和Midjourney等“文生圖”應用類似。
Sora可以生成分辨率1920x1080的視頻,也可以基于靜止圖片創(chuàng)建視頻,使用新素材擴展現(xiàn)有素材。比如用戶給它一張森林圖片,它可以幫你加上鳥、獸、人。給它一張汽車行駛圖,它能加上道路、交通燈、沿途建筑物和風景。
Sora將兩段視頻結(jié)合后產(chǎn)生的奇幻景象/OpenAI
5、怎么理解Scaling Law(縮放定律)?
Sora和ChatGPT類似,是OpenAI的Scaling Law(縮放定律)的又一次成功:只要模型足夠“大”,根據(jù)特定算法,就會產(chǎn)生智能“涌現(xiàn)”的能力。大模型的Scaling Law是OpenAI在2020年提出的概念,不僅適用于語言模型,還適用于其他模態(tài)以及跨模態(tài)的任務。
根據(jù)相關(guān)資料可以得到一個簡單介紹:Scaling Laws隨著模型大小、數(shù)據(jù)集大小和用于訓練的計算浮點數(shù)的增加,模型的性能會提高。并且為了獲得最佳性能,所有三個因素必須同時放大。當不受其他兩個因素的制約時,模型性能與每個單獨的因素都有冪律關(guān)系。
GPT-4報告中,明確指出:
The results on the 3rd easiest bucket are shown in Figure 2, showing that the resulting predictions were very accurate for this subset of HumanEval problems where we can accurately estimate log(pass_rate) for several smaller models.
在第3簡單的23個代碼問題上的性能預測
簡單翻譯一下,GPT-4在這23個問題上的性能預測,可以通過比GPT-4小1000倍的模型預測得來。也就是說GPT-4還沒開始訓練,它在這23個問題上的性能就已經(jīng)知道了。
可以跳過上述學術(shù)描述,直接理解為,Scaling Laws對于大模型的訓練很重要!硅基立場認為,Scaling Laws正在快速變成一種路線,充滿OpenAI領(lǐng)導者Altman的意志,也正變成這家公司的核心戰(zhàn)略。
6、Sora團隊有何“天才”之處?
根據(jù)OpenAI官網(wǎng)介紹,Sora核心團隊共有15人,而從公開資料顯示的畢業(yè)和入職時間來看,這支團隊的成立時間尚未超過1年。
除了由伯克利應屆博士生帶隊,有多名LeCun學生參與。其中還有包括北大校友在內(nèi)的3位華人研究員,以及20歲就加入OpenAI的天才工程師。
7、重塑AGI的Sora如何影響世界?
360公司董事長周鴻祎的預言,即Sora的出現(xiàn)可能將實現(xiàn)通用人工智能(AGI)的時間從十年縮短至僅一年。許多人認為,Sora首先將對影視行業(yè)造成沖擊。將來,影視劇制作的門檻會將會大大降低,只要心里有故事,就可借助強大的AI工具進行創(chuàng)作。
AI電影《山海奇境》的制作人陳坤提到,Sora通過展示其視頻能力,旨在收集用戶反饋,進一步探索和預測人們期望生成的視頻內(nèi)容。這一過程類似于大規(guī)模模型訓練,全球用戶的互動不斷豐富和優(yōu)化了其世界模型,推動AI在模擬現(xiàn)實世界方面變得更加精準和智能。
不同行業(yè)的巨頭也感受到Sora的“威能”:游戲公司育碧視其為一次巨大的飛躍;華大集團CEO尹燁將其比作開啟了AI發(fā)展的“牛頓時代”;而Meta的首席人工智能科學家、圖靈獎得主LeCun則批評Sora無法真正理解物理世界。
8、Sora制造焦慮么?
Sora值得更多的贊譽,但過度神話大可不必。販賣焦慮的不是Sora,喊出“現(xiàn)實不存在”,就兩類人,一類是AI門徒,一類是正在賣課割韭菜。應該向前者致敬,而后者正如這張流傳甚廣的照片,典型如李一舟,正賣付費課程從你口袋掏錢。
對于普通人,人工智能是一套輔助工具。想靠著買課聽來的信息賺錢,只會是竹籃打水一場空。真正帶來壓迫感的,或許是Sora不可思議的進化速度。例如,Gen-2是2023年6月發(fā)布的產(chǎn)品,距離Sora的發(fā)布不過8個月。
支撐OpenAI以如此速度迭代的是“瘋狂燒錢”,也是“大力出奇跡”的驅(qū)動力。知乎上,一位叫做“像素煉金師”的創(chuàng)業(yè)者坦承了他在目睹Sora發(fā)布后的心路歷程:“我有些害怕科技巨頭的產(chǎn)品像隆隆火車一樣駛過,而我做的東西如同路邊的野草一樣,在這個技術(shù)進步就像跑馬燈一樣的時代里,留不下一絲痕跡?!?/p>
9、OpenAI使了多大力?
Stability AI CEO Emad Mostaque曾稱,人工智能作為基礎(chǔ)設施所需的投資總額可能為1萬億美元,這會是人類有史以來最大的泡沫。
OpenAI訓練GPT-4,用了大約25000塊A100 GPU 。而訓練GPT-5,還需要5萬張H100,目前這張GPU的售價在2.5萬至3萬美元,還要排隊。
為支撐OpenAI技術(shù)發(fā)展所需要的算力,“奧特曼”宣布啟動“造芯”計劃,籌集多達5萬億至7萬億美元的資金,生產(chǎn)芯片。這個募資規(guī)模,可以買下包括英偉達、臺積電、英特爾、三星在內(nèi)的十八家芯片巨頭,以及社交巨頭Meta,還剩3000億美元。按照英偉達CEO黃仁勛的說法,7萬億美元能買下全球所有的GPU。
10、Sora面臨的挑戰(zhàn)有哪些?
首先是成本,Sora很強,但也更貴。小冰CEO李笛曾算過一筆賬,如果把全中國所有媒體的撰稿工作全部由大模型來完成,顛覆掉了一個市場、端掉了很多撰稿人的飯碗,AI公司獲得的也不過是200萬左右的市場規(guī)模。大力出奇跡,但不是每家公司都有OpenAI的實力。
還有一個老生常談的問題,Sora生成內(nèi)容的版權(quán)問題也一直在被不斷規(guī)范。比如,美國聯(lián)邦貿(mào)易委員會(FTC)2月15日提出了禁止使用AI工具冒充個人的規(guī)則。FTC表示,它正在提議修改一項已經(jīng)禁止冒充企業(yè)或政府機構(gòu)的規(guī)則,將保護范圍擴大到所有個人。
OpenAI內(nèi)部也在進行模型倫理方面的對抗性測試,包括拒絕處理錯誤信息、仇恨內(nèi)容、偏見內(nèi)容和色情暴力等。
如今,山姆.阿爾特曼就像百年前的奧本海默,正在搭建影響未來的基礎(chǔ)設施,并且還在不斷同競爭對手拉開差距。
相較于ChatGPT的人聲鼎沸,這一次,中國企業(yè)家和創(chuàng)投圈的公開“對比”,明顯沉寂很多。但賽道外,妄自菲薄、腹誹以及嘲諷的聲量卻不絕于耳。此種情形,個人十分認同硅基立場的觀點:
我們不缺同樣帶來極佳體驗的AI模型和產(chǎn)品,也不缺技術(shù)社區(qū)影響力極佳的個體和作品,但卻沒有在我們自己的討論里形成該有的關(guān)注,也許所有人該放開一些包袱了。我們對自己嚴苛到妄自菲薄的事實也在起著反作用。
以對原創(chuàng)技術(shù)的理解和定義為例,OpenAI不是Transformer模型發(fā)明者,Stable Diffusion不是Diffusion模型發(fā)明者,Mistral不是MoE發(fā)明者。如果對標,它們本質(zhì)都可以理解是一個個ASML,
所以“我們?yōu)槭裁礇]有誕生OpenAI”是不是并不等于“我們?yōu)槭裁礇]從頭發(fā)明某某技術(shù)”?是不是哪怕一家像ASML這樣的“只做沙子的搬運工”的公司,今天誕生在中國也躲不過先被罵套殼的命運?有時候,問題提錯了可能一切就都錯了。
綜合內(nèi)容:
智東西,《Sora爆火48小時,大佬們怎么看?》
投中網(wǎng),《“今天,所有VC的會上都在談Sora”》
硅基立場,《Sora帶來的四點啟發(fā)》
南風窗,《東京街頭視頻流出,硅谷巨頭不淡定了》
飛哥說AI,《為什么說 Sora 是世界的模擬器?》