文|阿爾法工場
這個春天,Sora幾乎成了統(tǒng)治整個AI圈的“刷屏王者”。
這個由OpenAI推出的AI視頻生成神器,憑借其驚人的創(chuàng)造力,讓人們再次見識到了AI的無限可能。而這炸裂的能力背后,蘊(yùn)含著的是指數(shù)級的財富增量。
Sora發(fā)布后,OpenAI的估值一夜之間漲到了800億美元。
在內(nèi)容消費(fèi)升級的大背景下,AI視頻生成技術(shù),正成為資本市場的新寵。
在此熱潮下,一大批立志追趕或效仿Sora的國產(chǎn)AI企業(yè)也乘勢而起。其中,七火山科技算是步伐較快的一個。
作為一家專注于AI多模態(tài)應(yīng)用的企業(yè),七火山旗下的產(chǎn)品包括了Lava AI視頻編輯平臺,Bromo AI圖像處理工具等,旨在為用戶提供AI換臉、AI換背景和AI優(yōu)化視頻等功能,可以說在AI視頻領(lǐng)域,七火山早有布局。
Sora公布后,七火山很快緊隨其后,發(fā)布了自身號稱國產(chǎn)版“Sora”的文生視頻大模型——Etna。并宣稱其以“4K” 、“60幀”、“15秒”等硬性指標(biāo),打破了國內(nèi)文生視頻AI的各種紀(jì)錄。
那么,在多個耀眼的標(biāo)簽下,這個國產(chǎn)版“Sora”,成色究竟怎樣?
01 導(dǎo)演VS剪輯師
如果用一句話來評價Sora和Etna之間的差距,那么Sora更像是一個全能的導(dǎo)演,而Etna則像是一個專業(yè)的視頻編輯師。
要理解這點(diǎn),我們就得從技術(shù)上拿捏一下Etna的“看家本領(lǐng)”。
按照七火山目前披露的信息,Etna主要的特色和優(yōu)勢分別是:
1、高幀率(每秒60幀);
2、高分辨率(可以達(dá)到4k);
3、較長的視頻時長(8—15秒),講真,這個時長在國內(nèi)文生視頻AI里(大部分是3~4秒)算不錯的了。
實事求是地說,在幀數(shù)和分辨率方面,Etna已經(jīng)超越了目前Sora。因為現(xiàn)在Sora僅僅只能生成幀數(shù)為每秒30幀,分辨率為720p的視頻。
然而,以上幾點(diǎn)僅僅是Etna的“皮相”,真正決定其與Sora差距的,還是Etna自身的底層架構(gòu)。
不過話說回來,即使是在“皮相”的部分,Etna和Sora也存在著一些肉眼可見的差距。
例如從整體上看,Etna生成的視頻,大部分都是一些運(yùn)動幅度較小的片段,看上去更像是一些加了動效的PPT。(關(guān)于這部分原因,后面會分析)
從底層架構(gòu)上來說,雖然Etna和Sora采用的都是Diffusion+Transform架構(gòu),但Etna較為不同的地方,就是在此基礎(chǔ)上插入了時空卷積和注意力層。
這樣做的一個好處就在于,與Transformer相比,CNN在處理高分辨率視頻時更高效,并且有助于減少計算資源和內(nèi)存的需求。
這正是主打4K分辨率的Etna所需要的。
然而,問題就在于,在處理長視頻(1分鐘以上)時,卷積神經(jīng)網(wǎng)絡(luò)(CNN)可能會受到限制,因為傳統(tǒng)的CNN在處理極長序列時可能不如Transformer有效。
這主要是因為,Transformer通過自注意力機(jī)制來處理序列數(shù)據(jù),而CNN往往將視頻視為一系列獨(dú)立的圖像幀,然后分別逐幀處理。
其中的區(qū)別,就相當(dāng)于Transformer是一本超級詳細(xì)的日記,它可以讓你隨時查看任何一頁,而且每一頁都記錄了這部電影的所有細(xì)節(jié),包括畫面與畫面之間的所有聯(lián)系和變化。不管你想回憶起電影的哪個部分,它都能幫你找到,并且告訴你前因后果。
而就CNN是好像相冊一樣的東西,它只能一次給你看幾張照片,而且它看的照片是按照一定的順序排列的。
但是當(dāng)你想回憶起一個很早之前的畫面和后面的畫面之間的聯(lián)系時,它可能就幫不上太大的忙了。
這等于是,Etna為追求更高的分辨率和幀數(shù),舍去了生成更長視頻的可能。
從算力上來說,這其實也是一件情理之中的事,畢竟,在生成長視頻的同時,還要保持極高的分辨率和幀數(shù),這消耗的計算資源,即使是OpenAI也頂不住。
這也是為什么Sora目前只能生成每秒30幀,分辨率為720p的視頻。
但問題是,Etna為什么要做這樣的取舍?
這里有三種可能:
一是七火山本身的計算資源、底層技術(shù)不到家,所以只好用時空卷積+注意力層的辦法,讓視頻在較短的時間內(nèi),勉強(qiáng)讓畫面“動”起來;
二是七火山的商業(yè)模式,決定了它不會走長視頻的道路,也就不會去鉆研這方面的技術(shù);
第三種情況,就是兩者兼而有之。
02 參天大樹和盆景
AI生成視頻,尤其是長視頻,對計算資源的消耗是驚人的。
之前OpenAI的CTO在接受采訪時,就明確表示,雖然Sora會在今年晚些時候推出,但由于高昂的計算資源,其價格“可能會很貴”。
就目前國內(nèi)AI行業(yè)愈發(fā)謹(jǐn)慎的投資環(huán)境來說,能否說服VC或投資人,給這么一個比LLM(大語言模型)更燒錢的技術(shù)融資,要打一個大大的問號。
而商業(yè)路徑最明確,“回血”也最快的短視頻賽道,就成了視頻生成類AI最有可能被資本認(rèn)可的方向。
這種商業(yè)上的考量,或許正是Etna在架構(gòu)層面沒有往長視頻方向發(fā)展的原因。
再者,從技術(shù)方面來說,雖然Etna采用了與Sora類似的Diffusion+Transform架構(gòu),但這絕不意味著,任何一家公司,只要對著這個架構(gòu)照抄,就能做出和Sora一樣好的視頻。
換句話說,Sora在生成質(zhì)量上的亮眼表現(xiàn),其實更像是一種工藝上的精進(jìn),而非掌握了某種“秘術(shù)”。
如果說得稍微具體些,這種“工藝”上的精髓,很有可能就是Sora在多模態(tài)理解和長距離依賴方面的優(yōu)勢。
這樣的區(qū)別,決定了模型能否理解用戶給出的復(fù)雜指令,能否生成一些動作幅度較大、或者較為復(fù)雜的片段。
能做到這點(diǎn)的模型,就是“導(dǎo)演”,否則就只能當(dāng)個“剪輯師”。
舉例來說,Sora這個“全能導(dǎo)演”不僅僅是能根據(jù)文字來生成視頻,它還能理解文字里的復(fù)雜情節(jié)和細(xì)節(jié),然后自己想象出一整套畫面來。
例如前段時間,Sora公布的一段視頻中,就出現(xiàn)了“一個男人參拜巨型貓王”的片段。畫面的提示詞是:座巨大的大教堂里全是貓。一個男人走進(jìn)大教堂,向坐在王座上的巨型貓王鞠躬。
在整個視頻中,畫面所透出的“故事感”特別強(qiáng)烈,即使沒有旁白,觀眾也能自行腦補(bǔ)一系列情節(jié)。
而到視頻的末尾,貓王甚至還湊到男人面前嗅了嗅,仿佛是在“打量”這個參拜者。
如此復(fù)雜的畫面和動作,需要模型在多模態(tài)理解方面有很強(qiáng)的功力。
而Etna在對其進(jìn)行效仿時,可能由于并未掌握其精髓,或是由于計算資源不足的原因,采用了時空卷積+注意力層的辦法,作為一種“權(quán)宜之計”,讓視頻勉強(qiáng)“動”起來。
這也是為什么,Etna生成的視頻,大部分都是一些運(yùn)動幅度較小的片段。
因為這樣的片段往往比較簡單,不太涉及對復(fù)雜語義的理解,消耗的算力資源也比較小。
話說回來,Etna之所以在架構(gòu)中采用時空卷積+注意力層,最有可能的原因,就是二者在計算效上率相較于單純的Transformer架構(gòu)更高效,對算力要求更小。
因為時空卷積和注意力層在處理數(shù)據(jù)時,通常只考慮局部信息,而不需要考慮整個序列。
這其實也挺符合七火山現(xiàn)在的短視頻戰(zhàn)略的,畢竟短視頻追求的就是一個“短、平、快”,如果有可能的話,最好能把算力的要求,降低到大部分手機(jī)都能運(yùn)行的地步。
如此一來,隨拍隨發(fā),用戶才能用得盡興,應(yīng)用的粘性才夠強(qiáng)。
七火山和快手海外 SnackVideo 也有合作
不過,這種看似“高效”的策略,總不免透著些遺憾。
畢竟,Sora這類的“導(dǎo)演”級模型,雖然很難造就,但其前景和應(yīng)用方向,無疑是更加廣闊的。之后無論是電影、電視劇,甚至是機(jī)器人、自動駕駛訓(xùn)練所需的模擬視頻,都能讓其大展拳腳。
而相較之下,專精于短視頻的Etna,雖然也可以成為一個很好的“剪輯師”,但視頻AI的想象力,難道就該僅僅止步于短視頻嗎?
這就像是,雖然盆栽確實可以長得很精致,但只有參天大樹,才能見到更廣闊的天地。