界面新聞?dòng)浾?| 肖芳
11月14日,界面新聞從多個(gè)知情人士處獲悉,字節(jié)跳動(dòng)視頻生成模型PixelDance將很快在即夢(mèng)AI上線,面向公眾開放使用,具體的上線時(shí)間將會(huì)早于Sora正式發(fā)布的時(shí)間。
Runway聯(lián)合創(chuàng)始人Cristóbal Valenzuela曾在11月9日稱,OpenAI計(jì)劃在大約兩周內(nèi)發(fā)布Sora。Cristóbal Valenzuela曝出該消息之前,OpenAI公布了一條聯(lián)合倫敦藝術(shù)家Jon Uriarte創(chuàng)作的短片,似乎是在為Sora的正式發(fā)布預(yù)熱。
這意味著,PixelDance很可能會(huì)在最近幾天內(nèi)發(fā)布。界面新聞向字節(jié)跳動(dòng)方面求證此事,截至發(fā)稿,對(duì)方暫未回應(yīng)。
字節(jié)跳動(dòng)在大模型領(lǐng)域一直動(dòng)作頻頻。9月24日,該公司一口氣發(fā)布了豆包視頻生成PixelDance、豆包視頻生成Seaweed兩款大模型,并通過即夢(mèng)AI和火山引擎面向創(chuàng)作者和企業(yè)客戶小范圍邀測(cè)。據(jù)知情人士透露,PixelDance除了即將在即夢(mèng)AI上線之外,還將于近期在豆包開啟內(nèi)測(cè)。
從其此前展示的視頻生成效果來看,豆包視頻生成模型無論是語義理解能力,多個(gè)主體運(yùn)動(dòng)的復(fù)雜交互畫面,還是多鏡頭切換的內(nèi)容一致性方面,都表現(xiàn)出不錯(cuò)的效果。
其中一個(gè)視頻輸入是,“特寫?個(gè)??的面部,有些??,戴上了?副墨鏡,這時(shí)?個(gè)男?從畫?右側(cè)?進(jìn)來抱住了她?!币曨l畫面顯示,其不僅遵循了這個(gè)復(fù)雜指令,還能夠按指令的時(shí)序去完成連續(xù)的動(dòng)作,兩個(gè)主體之間也能比較順暢地進(jìn)行交互,且人物表情較為準(zhǔn)確傳達(dá)了指令所描述的情緒。
據(jù)界面新聞了解,人物動(dòng)作是當(dāng)下視頻生成模型共同面臨的挑戰(zhàn),即使是Sora在人物動(dòng)作上做得也不夠好。OpenAI在今年年初公布的視頻樣片顯示,Sora還是以運(yùn)鏡和基礎(chǔ)動(dòng)作為主,復(fù)雜動(dòng)作較差,但豆包視頻模型生成公布的樣片在動(dòng)作上有了明顯提升。
一位多模態(tài)大模型科學(xué)家對(duì)比PixelDance和Sora公布的樣片后告訴界面新聞,如果樣片效果保真的話,字節(jié)跳動(dòng)的視頻生成大模型確實(shí)是相當(dāng)不錯(cuò)。從學(xué)術(shù)角度或者模型能力角度來說,其肯定達(dá)到了Sora的水平,尤其在人物動(dòng)作上非常棒。
火山引擎總裁譚待此前也透露,豆包視頻模型經(jīng)過剪映、即夢(mèng)AI等業(yè)務(wù)場(chǎng)景的持續(xù)打磨和迭代,優(yōu)化了Transformer結(jié)構(gòu),大幅提升了豆包視頻生成的泛化能力。同時(shí),豆包視頻生成模型基于DiT架構(gòu),讓視頻在大動(dòng)態(tài)與運(yùn)鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語言能力。在鏡頭切換時(shí)可同時(shí)保持主體、風(fēng)格、氛圍的一致性是豆包視頻生成模型的技術(shù)創(chuàng)新所在。
而從OpenAI近期公布的最新短片來看,Sora也在著重提升其在人物動(dòng)作上的能力。該短片處理的是多人坐在椅子上飛行的場(chǎng)景,無論是照片質(zhì)量還是細(xì)節(jié)處理上,都更接近照片的水準(zhǔn),人物動(dòng)作也更加自然。
若PixelDance正式面向公眾開放,或意味著其在技術(shù)上已較為成熟。對(duì)于豆包視頻生成模型的發(fā)布節(jié)奏,譚待曾透露,豆包系列大模型并不是按照某個(gè)固定的時(shí)間計(jì)劃發(fā)布的,有好東西就盡快推出。
“我們的邏輯是推出的產(chǎn)品要質(zhì)量可靠,有充分的用戶反饋,不能是半成品。就像視頻和語言模型發(fā)布一樣,不一定要搶第一,要推出成熟的產(chǎn)品?!弊T待說。