北京時(shí)間2月16日凌晨,OpenAI發(fā)布Sora文生視頻大模型,表示OpenAI正在教AI理解和模擬運(yùn)動(dòng)中的物理世界,目標(biāo)是訓(xùn)練能幫助人們解決需要真實(shí)世界交互的問題的模型。Sora可以生成長達(dá)一分鐘的視頻,同時(shí)保持視覺質(zhì)量和遵循用戶的提示。Sora能夠生成包含多個(gè)字符、特定類型運(yùn)動(dòng)以及準(zhǔn)確的主體和背景細(xì)節(jié)的復(fù)雜場(chǎng)景。該模型不僅理解用戶在提示中要求的內(nèi)容,還理解這些東西在物理世界中的存在方式。模型可以通過文字或者圖片生成視頻。
【機(jī)會(huì)前瞻】
OpenAI在2月16日推出了全新的AI大模型Sora,該文生視頻大模型包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭,以及富有情感的多個(gè)角色。
Sora亮點(diǎn)在于其能通過簡短的文本提示生成60秒的“逼真”和“富有想象力”的視頻內(nèi)容。與此前其他幾家文生視頻的幾秒相比,Sora在市場(chǎng)和視頻質(zhì)量方面,都取得了巨大的進(jìn)步。
Sora的創(chuàng)新之處在于采用了Transformer和擴(kuò)散模型的結(jié)合。該模型首先將不同類型的視覺數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的視覺數(shù)據(jù)表示,然后將原始視頻壓縮到一個(gè)低維潛在空間。這使得Sora能夠在這個(gè)潛在空間里進(jìn)行訓(xùn)練,生成包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭和富有情感的多個(gè)角色的視頻。