文|毒眸
寫幾筆腦洞,就能生成視效大片。這在以前只存于幻想,可如今卻成了現(xiàn)實。
當(dāng)?shù)貢r間2月15日,美國人工智能研究公司OpenAI發(fā)布了文生視頻模型Sora,瞬間引爆全球網(wǎng)絡(luò)。這也是其司繼曾ChatGPT之后,再度將AI技術(shù)推至輿論高點。
據(jù)官方介紹,用戶只要輸入提示詞、文字指令或者靜態(tài)圖像,即可獲得一條長達(dá)60S的內(nèi)容視頻,并且從案例來看,視頻的場景精細(xì)度高、鏡頭機(jī)位豐富,角色生動有情緒,品質(zhì)極高。
(圖源:OpenAI頁面)
當(dāng)然,其中難免有一些bug,但是不影響主流聲音。很多專家學(xué)者認(rèn)為,Sora的出現(xiàn),拓展了AI視頻技術(shù)的極限,將為社會生產(chǎn)和生活帶來巨大改變,但是相應(yīng)的,由于技術(shù)的替代性,也會搶奪部分人員的“飯碗”,尤其是傳媒、影視、游戲等內(nèi)容創(chuàng)作領(lǐng)域。
《年會不能停!》的編劇、導(dǎo)演董潤年就直接在微博表示:傳統(tǒng)影視行業(yè)基本要結(jié)束了,大家想想轉(zhuǎn)行以后做點什么。
理論上講,如果Sora的技術(shù)達(dá)到成熟,以及規(guī)避風(fēng)險開放公用,那么確實每一個人均能先用ChatGPT寫劇本,再用Sora生成影像。屆時,人人皆可是導(dǎo)演,人人亦不是導(dǎo)演。
這無疑會讓部分工種消失,不過于行業(yè)發(fā)展的大方向而言,卻也有相當(dāng)利好的一面。因為假使硬件制作端趨于同質(zhì)化,只會讓創(chuàng)作的本質(zhì)——創(chuàng)意顯得更加重要,同時行業(yè)會整體更為注重版權(quán)保護(hù),AI信息的輸入與輸出會非常謹(jǐn)慎。
以及,更關(guān)鍵的是,AI技術(shù)哪怕再強大,也不會凌駕于人的創(chuàng)作之上。藝術(shù)是生命的最高使命和生命本來的形而上活動。技術(shù)和藝術(shù)的屬性即決定,AI永遠(yuǎn)只能是工具,不能取代生命力本身的勃發(fā)與光彩。
而亦正因如此,怎樣認(rèn)識與學(xué)會使用AI就變得很重要。就像學(xué)會使用汽車、電腦、互聯(lián)網(wǎng)等產(chǎn)品,令之服務(wù)于生活。畢竟,生產(chǎn)工具決定生產(chǎn)力,生產(chǎn)力推動社會發(fā)展。
“導(dǎo)演”Sora
Sora可音譯為索拉,在日語里有“天空”的意思,也可引申為“自由”。顧名思義,產(chǎn)品目的即是讓創(chuàng)意靈感自由翱翔。正如在其官方介紹頁里,能看到很多紙飛機(jī)在空中肆意飛揚。
其實在Sora之前,市面上已經(jīng)有了Runway、Pika Labs和Stable Video等AI生成視頻模型,但是均未引起如此大的關(guān)注與討論。歸根結(jié)底,是Sora的擬真度實在太高。
截止發(fā)稿前,OpenAI已更新了48個案例視頻,內(nèi)容包羅萬象,比如可愛小狗在雪地玩耍、時尚女性行走在東京街頭、人群追隨舞龍隊伍等現(xiàn)實場景;再比如滅絕的猛犸象踏雪而來、鯊魚游在高樓大廈之間等偏奇幻場景;還有模擬的高品質(zhì)3D動畫片,里面的動物毛發(fā)清晰可見。
(圖源:OpenAI頁面)
這些視頻充分顯示,Sora在時長規(guī)格、運鏡構(gòu)圖、生物擬態(tài)等維度均有極大突破,甚至大多細(xì)節(jié)已和人工拍攝不相上下,很像一位真實的“導(dǎo)演”。
時長方面,此前AI 生成的視頻都在 4 到 16 秒之間,并且有些卡頓,類似PPT。而Sora則將這一數(shù)據(jù)提升了4到15倍,同時能保持流暢性。規(guī)格方面,其從寬屏的1920x1080p到豎屏的1080x1920均能適應(yīng),可以打造出匹配畫幅的高精度內(nèi)容。
(圖源:OpenAI頁面)
另外,Sora還有視頻時間線延展功能,用戶提供一段視頻,Sora能為其填補前面或者后面的視頻內(nèi)容。
運鏡上,Sora有自己的“鏡頭語言”。區(qū)別于通常單一視角的AI視頻輸出,針對同樣的場景和人物關(guān)系動作,Sora可以像拍電影一樣,變換鏡頭角度和景別位置,完成廣角、中景、近景、特寫等不同視角的畫面,以及自動形成剪輯。
(圖源:OpenAI頁面)
Sora也能融合場景,類似用「一支筆掉落在桌上+零食袋掉落在地上」生成「零食袋掉落在桌上」。
生物擬態(tài)側(cè),情緒是人或者動物特有的生命狀態(tài),在喜怒哀樂的表達(dá)上,Sora明顯更為靈動自然。
(圖源:OpenAI頁面)
而得出以上效果,與Sora對于“世界模型”的探索息息相關(guān)。
“世界模型”是AI技術(shù)的終極目標(biāo),也就是理解、重建和模擬物理世界。原理大體為,讓AI像人類一樣先認(rèn)識和了解這個世界,再做出反應(yīng),輸出內(nèi)容。由此,Sora的視頻更順暢且符合現(xiàn)實邏輯,可以跳出2D圖片的限制,模擬出接近真實世界的場景和體驗。
其中,OpenAI特別在AI訓(xùn)練時,給所用的視頻素材匹配了高質(zhì)量的文本描述,以求整體提高輸出視頻的質(zhì)量。
鑒于AI的訓(xùn)練水平和“世界模型”的構(gòu)建還不完善。Sora也有不少穿幫畫面,多為物理問題。例如老奶奶吹蠟燭,蠟燭沒有熄滅;裝著水的玻璃杯沒有碎,可是水已經(jīng)流出;三只小狗一起玩,憑空出現(xiàn)了更多小狗;籃球撞破籃筐,發(fā)生了爆炸等。
簡單說,作為“導(dǎo)演”,Sora還需要更多熟悉真實世界。
“鯰魚”Sora
Sora的出現(xiàn),引得眾多KOL紛紛發(fā)表評論,有人擔(dān)心引發(fā)行業(yè)危機(jī),也有人持贊賞的態(tài)度。360集團(tuán)創(chuàng)始人、董事長周鴻祎就表示,隨著Sora的到來,人類離AGI真的不遠(yuǎn)了,不是十年、二十年的問題,可能一兩年就可以實現(xiàn)。
而無可避免的,Sora亦帶來了長時間伴隨AI的倫理問題。前段時間,梅西的道歉視頻就曾被質(zhì)疑為AI所制,在網(wǎng)上引起了討論。假設(shè)Sora投入運用,同樣的話題將會大大增多。
以后的事還需時間驗證,不過至少在短期看,Sora會像一條鯰魚,攪動行業(yè)生產(chǎn)活水。
(圖源:OpenAI頁面)
實際上,不管是游戲行業(yè),還是影視行業(yè),抑或是工廠運營、自動駕駛等實體產(chǎn)業(yè),相關(guān)公司從未停止對AI的探索。某種意義上,作為工業(yè)化和科技化的標(biāo)志,AI是降本增效的關(guān)鍵。
影視行業(yè),Netflix在2021年10月上線了一部AI創(chuàng)作的懸疑喜劇動畫《謎題先生希望你少活一點》;好萊塢公會在去年3月宣布,在不影響編劇署名和分成的前提下,允許AI運用于劇本創(chuàng)作,國內(nèi)如華策、光線等公司也公開發(fā)出了鼓勵的聲音;阿里大文娛則在近期優(yōu)酷播出的劇集《大唐狄公案》中,以AI輔助生成了人流、街景、樓宇建筑等畫面。
(《大唐狄公案》AI輔助場景)
游戲行業(yè),基于對游戲體驗和制作成本的剛性訴求,各大游戲公司一直致力于自研AI系統(tǒng),涉及語音、原畫、動捕等諸多環(huán)節(jié),《王者榮耀》就有游戲試練AI“絕悟”。短視頻行業(yè),字節(jié)跳動則在去年11月發(fā)布過文生視頻PixelDance,功能與Sora有部分類似,但是至今未開放用戶測試。
這樣看,在Sora的刺激下,本來就在AI賽道上發(fā)力的公司會加大馬力,升級技術(shù),保持戰(zhàn)略優(yōu)勢和競爭力。
值得一提的是,Sora的核心成員僅有13人,而且平均年齡不高,2位負(fù)責(zé)人剛剛博士畢業(yè),這也給國內(nèi)培養(yǎng)AI人才給予了啟示。
(圖源:OpenAI頁面)
技術(shù)之外,創(chuàng)意亦然,甚至更加珍貴。從Sora的流程屬性看,有了AI輔助,制作和技術(shù)側(cè)的局限會大幅降低,一個作品的品質(zhì)將無限依賴于創(chuàng)作者的審美水平和指令邏輯。
與此同時,創(chuàng)作者使用現(xiàn)有藝術(shù)元素或者內(nèi)容的門檻會極大提高,IP版權(quán)的成本將取代制作環(huán)節(jié)的成本。
這種情況下,道具師、剪輯師、特效師等制作端崗位可能處境嚴(yán)峻,創(chuàng)作者的內(nèi)容也會愈發(fā)五花八門,需要法律和監(jiān)管部門嚴(yán)格管控。
Sora發(fā)布不到12小時,導(dǎo)演郭帆在朋友圈轉(zhuǎn)發(fā)了相關(guān)鏈接并感嘆“太快了……”。盡管現(xiàn)在還不能“一鍵”生成《流浪地球3》,但是《流浪地球10》,并非沒可能。