文|新浪蜂鳥 金煜
編輯|李固
春節(jié)黃金周期間,互聯(lián)網(wǎng)上涌現(xiàn)了一批令人贊嘆的超短視頻作品,它們以驚人的頻率在全球范圍內(nèi)傳播,每日都帶來新的視覺盛宴。
這些視頻作品,無一例外,均由人工智能完全獨立生成,未經(jīng)人手直接干預(yù)。
最早的視頻之一,是描繪冰河世紀(jì)猛犸象的畫面,精美程度可以秒殺侏羅紀(jì)公園或其它好萊塢CGI制作。
Sora示范視頻。“提示詞:"幾頭巨大的長毛猛犸象踏著雪地草地走來,它們長長的毛發(fā)隨風(fēng)輕揚(yáng),遠(yuǎn)處是白雪覆蓋的樹木和壯觀的雪山,午后的陽光灑在飄渺的云朵上,遠(yuǎn)處的太陽高高掛起......“
來源:OpenAI官方X賬號
另一個廣為傳播的視頻中,長鏡頭跟隨游客,掃過盛開櫻花下的東京街景。專業(yè)人士使用其它AI視頻生成平臺以相同的提示詞嘗試制作時,驚訝的發(fā)現(xiàn)這部新視頻在拍攝角度、畫面的精細(xì)度,以及清晰度等多個維度上,均顯著超越了以往的作品。
Sora示范視頻。提示詞: “美麗多雪的東京城熱鬧非凡。鏡頭穿過熙熙攘攘的城市街道,跟隨幾位正在享受美麗雪景和在附近攤位購物的人們。絢麗的櫻花花瓣與雪花一起隨風(fēng)飛舞。”
來源:OpenAI官網(wǎng)
AI甚至模擬出170多年前,當(dāng)攝影技術(shù)還未出現(xiàn)的加州淘金熱時期的場景。而且,制作這個視頻的提示詞簡單無比,顯示了AI技術(shù)在理解和創(chuàng)造歷史場景方面的驚人能力。
Sora示范視頻。提示詞:加州淘金熱時期的歷史影像。來源:OpenAI官網(wǎng)
這些具有前所未有高保真度的AI視頻畫面,徹底震驚了業(yè)內(nèi)。
它們來自O(shè)penAI新推出的視頻生成平臺Sora。
像搭積木一樣重新排列創(chuàng)建視頻
根據(jù)OpenAI的解釋,Sora的名字取自日語“天空”一詞,其目標(biāo)是教人工智能“理解和模擬運(yùn)動中的物理世界”,從而訓(xùn)練模型,協(xié)助人們解決需要現(xiàn)實世界互動的各種問題。
通過一個簡單的提示詞,Sora自動生成的完整視頻長度長達(dá)1分鐘。
當(dāng)下的情形,與兩年前人工智能靜態(tài)圖像生成出現(xiàn)時有些類似。
當(dāng)時,OpenAI的DALL-E2和Midjourney以及Statble Diffusion幾個公司幾乎同時推出了靜態(tài)圖像模型,并且對外開放,允許數(shù)百萬用戶通過簡單的文字提示,得到AI制作的奇妙圖片。
而Sora的問世,意味著在視頻生成領(lǐng)域邁出的一大步,也將競爭對手遠(yuǎn)遠(yuǎn)拋出了腦后。
OpenAI的創(chuàng)始人山姆·奧特曼(Sam Altman)再一次證實了自己的地位。就在前不久,他還剛經(jīng)歷了OpenAI與微軟的“辭退風(fēng)波”,重返OpenAI首席執(zhí)行官后,他就通過Sora的推出,向世人證明他個人在AI行業(yè)的影響力。
為什么Sora更勝一籌?OpenAI并沒有公開技術(shù)真正的內(nèi)部運(yùn)作,但基于一些公開技術(shù)報告,可以從中一瞥其創(chuàng)新秘訣。
明顯的是,Sora借鑒了ChatGPT和DALL-E的關(guān)鍵技術(shù)經(jīng)驗:它將視頻分割成同等大小的“補(bǔ)丁”片段,類似于ChatGPT訓(xùn)練模型時用的“令牌”。這些片段可以像搭積木一樣,重新排列,創(chuàng)建新的視頻,是視頻生成更為高效和靈活。
它還基于DALL-E-3的擴(kuò)散模型,把嘈雜的、不完整的數(shù)據(jù),通過一系列反饋循環(huán)和預(yù)測計算,轉(zhuǎn)換成清晰、連貫的視頻內(nèi)容。比如,為了做出一只正在玩耍的狗,AI會將無意義,模糊的點陣圖(充滿了技術(shù)噪音)變成了看起來真實的狗(“干凈”的輸出)。
小狗玩耍視頻的AI生成過程。來源:OpenAI
Sora也和其它生成式人工智能模型一樣,使用了變形器技術(shù)(Transformer,也就是ChatGPT中最后一個字母T的意思),并使用復(fù)雜的數(shù)據(jù)分析技術(shù)來處理海量的數(shù)據(jù),辨別最重要的和最不重要的部分,并找出不同數(shù)據(jù)塊之間的上下文和關(guān)聯(lián)。此外,Sora還會為訓(xùn)練視頻幀添加高度精細(xì)的字幕,幫助進(jìn)一步修正視頻。
Sora結(jié)合深度學(xué)習(xí)、自然語言處理和計算機(jī)視覺,不斷跟真實現(xiàn)實比較,它的訓(xùn)練基礎(chǔ),是數(shù)百萬個真實視頻,使得它可以從現(xiàn)實世界中學(xué)習(xí)并理解視頻的“語言”。
Sora的推出,很快在股市上產(chǎn)生了悲喜結(jié)果。圖像制作軟件巨頭Adobe的股價在Sora發(fā)布后暴跌7%。主要受益者則是為OpenAI等模型提供核心計算芯片的英偉達(dá)。
其近期發(fā)布季度財報后,股價上漲了16%,相當(dāng)于市值增加了2730億美元。
傳播公司EEAGLI制作的一段英偉達(dá)與英特爾股價比較的視頻顯示,受新冠疫情導(dǎo)致居家辦公、游戲和疫苗研發(fā)需求高漲,英偉達(dá)股價此后開始反超英特爾,雖然隨后受通脹等原因下降,但很快又憑借OpenAI的ChatGPT熱潮再度快速高漲,成為當(dāng)前科技領(lǐng)域名副其實的領(lǐng)軍者兼最佳股票。
英偉達(dá)與英特爾公司自2014至今的股價比較。來源:EEAGLI
凜冬將至的電影工業(yè)
如同當(dāng)初ChatGPT一度震撼各行各業(yè),Sora的問世同樣吸引了諸多領(lǐng)域的密切關(guān)注。
人們首先想到的是電影制作。好萊塢去年發(fā)生的罷工事件,已經(jīng)顯示了創(chuàng)意產(chǎn)業(yè)對ChatGPT取代他們工作的深度焦慮。現(xiàn)在,輪到電影制片人和特效制作公司坐立不安了。
一些人已經(jīng)迅速反應(yīng)。好萊塢演員、制片人Tyler Perry在Sora推出后,立即宣布,暫停8億美元的工作室擴(kuò)張計劃。
整體上,長片受到的直接影響可能有限。目前的Sora視頻只長至一分鐘,而每次用類似的提示詞生成視頻,AI生成結(jié)果都不盡一致,因此,是很難把60個短視頻拼成一部連貫的長電影的。
盡管如此,動畫領(lǐng)域可能會感到不安。此前,皮克斯公司最引以為豪的,是耗費(fèi)數(shù)月和大量人力資源制作出來的精細(xì)動畫細(xì)節(jié),如人和動物有著超復(fù)雜紋理的毛發(fā),而現(xiàn)在,Sora幾秒鐘就能制作出同等精美的效果。
國際動畫電影協(xié)會好萊塢分會臨時執(zhí)行主任Aubry Mintz對媒體表示,如果Sora開始用于參考動畫、概念制圖和故事板,一些專業(yè)人士有可能會失業(yè)。但他同時表示,從CGI到計算機(jī)動畫軟件,好萊塢經(jīng)歷了很多次技術(shù)進(jìn)步,它應(yīng)該也能從人工智能創(chuàng)新中幸存下來?!八鼈儯ˋI)無法復(fù)制人類的創(chuàng)造性思維,也無法做出創(chuàng)造性決定,這是人類藝術(shù)家們幾個世紀(jì)以來一直在做的?!?/p>
事實上,最先釋放出巨大創(chuàng)意潛力的,很可能是短視頻領(lǐng)域。根據(jù)OpenAI官方介紹,除了文字轉(zhuǎn)視頻之外,它同樣具備從靜態(tài)圖像轉(zhuǎn)化為視頻的能力,因此,今后,創(chuàng)意人士除了用提示詞外,還可以將自己創(chuàng)作的圖畫,通過AI轉(zhuǎn)化為視頻,這開啟了個人創(chuàng)作全新的可能性。
人工智能電影制作組Curious Refuge對媒體表示,迫不及待地想要使用這款工具了。
一旦Sora對外開放,最先開始采納的,很可能是短視頻博主和制作商,會出現(xiàn)一大批充滿創(chuàng)意的人工智能合成視頻。另一個帶來機(jī)遇的是廣告和營銷領(lǐng)域,ChatGPT已經(jīng)成為了營銷工具的一部分,Sora也很可能會很快為廣告設(shè)計、營銷活動制作出吸引眼球的視頻內(nèi)容。
教育培訓(xùn)機(jī)構(gòu)也很可能從中受益,相關(guān)公司可以利用Sora開發(fā)出針對特定主題和場景的教育和培訓(xùn)視頻,增強(qiáng)學(xué)員的學(xué)習(xí)體驗---例如,想象帶孩子進(jìn)入AI制作的逼真的史前世界,或戰(zhàn)火紛飛的二戰(zhàn)現(xiàn)場中講解古生物和歷史。
AI視頻未來還可以應(yīng)用于各類動態(tài)商品演示,給電子商務(wù)、零售商、網(wǎng)絡(luò)帶貨等行業(yè)帶來全新的商品展示模式。比如,AI視頻可以用于虛擬試穿,讓顧客可以直觀看到新衣服穿在身上的效果,這就大大減少了網(wǎng)購帶來的不確定性。
《紐約時報》的起訴與備受期待的新法律框架
對視頻生成工具被濫用的擔(dān)憂從技術(shù)誕生第一天起便存在。高仿真的視頻內(nèi)容,會以假亂真,傳播錯誤的,危險的信息,以“深度仿造”的形式破壞社會結(jié)構(gòu),給個人帶來災(zāi)難。此前,就出現(xiàn)了過將名人嫁接到色情明星身上或仿造政客言論等虛假視頻,使得傳播這些視頻的社交媒體廣受批評。
現(xiàn)在,Sora生成視頻的逼真程度再次引發(fā)擔(dān)憂,其一旦被社會濫用,后果可能甚為不堪。因此,Sora也十分謹(jǐn)慎。目前尚未對公眾開放(只針對少數(shù)一些進(jìn)行風(fēng)險測試的人員,以及特定的視覺藝術(shù)家和電影制片人開放),OpenAI也沒有說明何時開放。
根據(jù)OpenAI的說法,要達(dá)到正式對外開放的程度,需要設(shè)置一些安全防護(hù)措施,比如無法生成極端暴力、色情、仇恨畫面或名人肖像的視頻。OpenAI也可能計劃在Sora視頻中加入源數(shù)據(jù),表示這些視頻是人工智能生成的,從而防止視頻濫用。
對于Sora多大程度上具有革新意義,現(xiàn)在的各類討論也很多。很多人震驚于視頻逼真程度的同時,人工智能專家也再一次看到了AI的本質(zhì)局限。《華爾街日報》邀請的AI專家表示,仔細(xì)看,Sora發(fā)布的這些逼真視頻,充斥了很多物理上,或常識上說不過去的地方。
當(dāng)對象是人的時候,總有一些地方讓人憑直覺,感覺到奇異之處。比如燒意大利菜的老奶奶,她揮手的動作,就顯得很奇怪,真人不會這樣揮手。
Sora示例視頻。提示詞:祖母主持的自制土豆面疙瘩烹飪指導(dǎo)課程。來源:OpenAI
場景視頻也有很多細(xì)節(jié)錯誤。如模仿無人機(jī)拍攝的意大利海邊城市的視頻,波浪向外而非向岸邊推動,違反了物理常識。此外,上面的一些臺階也突然中斷,顯示AI只是把各種不同視頻中的臺階摘錄過來,但并沒有按照常識將其連接到建筑上。
Sora示例視頻。提示詞: 一架無人機(jī)圍繞著阿馬爾菲海岸一座建在巖石上的歷史悠久的美麗教堂拍攝,畫面展示了歷史悠久、宏偉壯觀的建筑細(xì)節(jié)以及層層疊疊的小徑和天井,海浪拍打著下方的巖石,俯瞰著意大利阿馬爾菲海岸的海岸水域和丘陵地貌的地平線、 遠(yuǎn)處有幾個人在散步,在天井中欣賞壯麗的海景,午后溫暖的陽光為這一場景營造出一種神奇而浪漫的感覺,精美的攝影作品捕捉到的景色令人嘆為觀止。
而引發(fā)贊譽(yù)的淘金熱時期仿古膠卷,專家指出,里面并列著來自不同歷史時期的建筑,而且,視頻中人和馬順著右邊按秩序走路,完全是現(xiàn)代馬路的交通規(guī)則,在古時是不存在的。視頻中也存在馬走著走著就消失了的情況。而在東京街景的畫面中,也出現(xiàn)馬路上的汽車開著開著就消失了的情況。
OpenAI也公開承認(rèn),模型在因果關(guān)系、混淆左右、遵循軌跡等方面還存在問題,也“沒有準(zhǔn)確模擬許多基本交互等物理過程“。
這些問題,在兩年前靜態(tài)圖像模型大紅大紫的時候,也都出現(xiàn)過。當(dāng)時,就有人批評這些靜態(tài)圖像笨拙、呆板、缺乏人性,有的還存在明顯缺陷。有人工智能專家認(rèn)為,AI無法處理“構(gòu)圖性“,不知道如何組成場景元素,這反映了人工智能技術(shù)的根本缺陷。
此后,DALL-E3和Midjourney的靜態(tài)圖像生成的確得到了很大的進(jìn)步,對場景元素的處理更為逼真,更少出現(xiàn)邏輯錯誤。因此,Sora很可能也會快速,很可能不遠(yuǎn)的一天,至少對于大眾而言,真的會出現(xiàn)真假難辨的那一刻。
一個重要挑戰(zhàn),是版權(quán)問題。OpenAI方面表示,訓(xùn)練數(shù)據(jù)來自授權(quán)內(nèi)容和公開內(nèi)容,但已經(jīng)有知識產(chǎn)權(quán)持有者在質(zhì)疑,這數(shù)百萬訓(xùn)練視頻中,到底有多少是“公開內(nèi)容”了,模型有可能在不經(jīng)意中使用的視頻侵犯了現(xiàn)有版權(quán)。
OpenAI本身已經(jīng)因版權(quán)侵犯和知識產(chǎn)權(quán)問題多次遭到了起訴。去年,《紐約時報》就其數(shù)百萬篇文章被侵權(quán)用于訓(xùn)練ChatGPT,而將OpenAI和微軟告上法庭,該案的最終判決結(jié)果將定義人工智能生成技術(shù)與知識產(chǎn)權(quán)關(guān)系的新法律框架。去年,OpenAI向英國上議院承認(rèn),如果不使用受版權(quán)保護(hù)的資料,就不可能訓(xùn)練出當(dāng)今領(lǐng)先的人工智能模型。他們在自己的博文中為自己辯護(hù),稱紐約時報的訴訟“毫無根據(jù)”,該公司稱,如果無法獲取受版權(quán)的資料,人工智能的發(fā)展將是“不可能”的。
這一說法激怒了一些業(yè)內(nèi)人士。著名的人工智能批評家Gary Marcus對此寫道:“簡略翻譯就是:你如果不讓我們盜竊,我們就不會暴富,所以請不要讓盜竊成為犯罪……當(dāng)然,網(wǎng)飛公司可以一年支付數(shù)十億美元的許可費(fèi),但‘我們’不應(yīng)該也這樣!”
在另一篇文章中,Marcus寫道:“四十年前,當(dāng)我開始研究人工智能時,我根本沒有想到它最大的用途,竟然是衍生模仿,并把藝術(shù)家和其它創(chuàng)作者的價值轉(zhuǎn)移給巨型企業(yè)?!?/p>
不管如何,潘多拉的盒子已經(jīng)打開。AI生成的視頻最終將全面滲透到我們的生活中。它究竟會如何改變我們的社會,會產(chǎn)生怎樣正面抑或負(fù)面的影響,更多取決于技術(shù)之外的因素,特別是人工智能行業(yè)如何設(shè)計規(guī)則,規(guī)范自己,并與版權(quán)所有者、創(chuàng)意人士以及監(jiān)管機(jī)構(gòu)等實現(xiàn)共贏共治的程度。