文|AI鯨選社 何煦陽
今天兩個重磅消息,意味著Sora多了兩個強勁對手:
一,字節(jié)剪映海外版Capcut的AI生成視頻功能開放公測了;
二、Stable Video,對,就是那個AI繪畫效果特好的Stable Diffusion,它開發(fā)的AI生成視頻產(chǎn)品,今天也公測了。
Pika、Runway、Video Poet、Soar,現(xiàn)在又加上Capcut、Stable Video,今年這如泉涌的AI視頻產(chǎn)品真的把鯨哥炸得頭暈目眩,視頻行業(yè)要變天!
廢話不多說,先擺上倆網(wǎng)址。畢竟還沒開放測試的Sora只是期貨,Stable Video和Capcut可是實打?qū)嵉亻_放公測了,不是傳言中的“狼來了”。咱們看看他倆效果如何——
Capcut網(wǎng)址:https://www.capcut.com/editor-tools/ai-video-generator
Stable Video網(wǎng)址:https://www.stablevideo.com/generate
剛點開Capcut,界面左邊就是AI視頻demo,右上角提醒用戶每人有五次免費AI視頻生成機會:
需要注意的是,Capcut和Runway、Soar都不一樣,不是純AI視頻產(chǎn)品,是剪輯工具,AI視頻生成只是功能之一。左上角就有很多功能供用戶選擇:
這一點值得夸贊的,在產(chǎn)品化方面Capcut做得比其他AI視頻產(chǎn)品好,尤其利好廣告創(chuàng)作者,剪映自身的剪輯工具屬性使它有先天優(yōu)勢。
那就上手體驗吧!鯨哥的提示詞寫了“Minecraft Gameplay”,想拿Capcut生成的視頻跟Sora那邊的比較一下,結(jié)果……
1850分鐘?Seriously?鯨哥本來以為真實不需要這么久,結(jié)果發(fā)現(xiàn)它居然真的在倒數(shù)......
沒辦法了,只能看來看看Capcut的視頻demo了。鯨哥把demo放在下面,以饗讀者:
整體似乎不錯,光影、細節(jié)拉滿,但要等一天多的時間也太漫長了,不知道是否是今天服務器被擠爆的緣故,可Pika、Runway當時發(fā)布時,似乎并沒有出現(xiàn)這種狀況。
X平臺上也有人表示了質(zhì)疑:
初次見面,Capcut給的印象分實在不高。
而Stable Video(簡稱SV),在三個月前其實就公開了論文代碼權(quán)重,當時有程序猿就已經(jīng)體驗過一波。
Stable Video的視頻demo是這樣的:
在早前宣傳的時候,他們號稱Stable Diffusion有3D合成能力,支持物體從單一視角到多視角的轉(zhuǎn)化:
按回車進入網(wǎng)站:
很簡潔干凈的界面,比剪映多了一個圖像生成視頻的選項,畢竟AI繪畫是Stable Diffusion的老本行:
每個人一開始有150點免費額度,圖像轉(zhuǎn)視頻一次花費10個額度,文本轉(zhuǎn)視頻花費11個額度。
還可以調(diào)節(jié)鏡頭,鎖定、搖鏡、360度,俯視都可以:
鯨哥輸入提示詞想生成視頻,卻發(fā)現(xiàn)系統(tǒng)提示錯誤......
將提示詞改短了些,變成“一對男女在海邊看日出”,就成功了,得到了這樣一段4s的視頻:
不錯!雖然簡單,但十分高清。
但當鯨哥想繼續(xù)生成時,系統(tǒng)又顯示錯誤,不知道時因為SV現(xiàn)在語義理解能力還不夠,還是服務器爆滿??蓤D生視頻卻沒問題:
對比Sora的Minecraft Gameplay:
SV的ant:
Sora的ant:
可以發(fā)現(xiàn)SV最為人稱道的是它的清晰度,可兩個視頻基本上都只是背景在動,畫面主體并沒有動,更像是圖片轉(zhuǎn)變成了一個GIF。
鯨哥嘗試選“Orbit”,讓鏡頭360度圍繞著螞蟻旋轉(zhuǎn),結(jié)果四十分鐘都沒有生成出來,當初說好的3D合成呢......
Sora完全吊打SV,無論是畫面的精細程度,主體的運動,鏡頭的變換......最離譜的是,SV看看Sora生成的Minecraft吧,這才是真正的3D合成!你只動背景算什么呢?
Sora的3D合成效果(或者說物理效果)究竟是怎么來的?OpenAI在此前公布Sora的技術(shù)文檔曾提到,他們發(fā)現(xiàn)視頻模型在經(jīng)過大規(guī)模訓練后,會表現(xiàn)出許多有趣的新能力。這些能力使 Sora 能夠模擬物理世界中的人、動物和環(huán)境的某些方面。
也許SV3D合成功能欠缺(也可能是服務器被擠爆)就是因為依然沒有滿足sacaling law法則,數(shù)據(jù)和訓練未大到讓模型涌現(xiàn)出理解物理世界的能力。
Sora的世界模仿能力也非完美,該能力的出現(xiàn)純粹是規(guī)模現(xiàn)象,不能說明有明確的三維、物體特征,比如Sora也無法完美模擬玻璃杯破碎的過程。著名科技大拿楊立昆最近就在X平臺上炮轟Sora沒有前途,除非使用他提出的物理引擎。
AI視頻只會越來越智能。可以想見,未來社交平臺上會有大量的AI內(nèi)容,屆時我們所看到的一切都將變得真假難辨。