2024年2月19日,OpenAI最新推出的文生視頻大模型Sora引發(fā)市場熱議,在資本市場受到追捧,多模態(tài)AI相關(guān)指數(shù)概念大漲,近兩日漲幅超15%。
據(jù)不完全統(tǒng)計,目前國內(nèi)已經(jīng)有多家A股上市公司在之前已經(jīng)宣布布局了多模態(tài)大模型和對AI視頻進行相關(guān)研發(fā)。
據(jù)了解,海康威視在去年4月20日回復(fù)投資者提問時表示,公司已經(jīng)進行了多模態(tài)大模型的研發(fā)階段,包括視覺、語音、文本等多模態(tài)信號的融合訓(xùn)練及處理。
大華股份在2023年10月發(fā)布“星漢大模型”,該模型融合點云、語音、圖像等輸入,構(gòu)建了多模態(tài)融合的行業(yè)視覺大模型。并在1月15日互動問答中表示,公司多模態(tài)融合的行業(yè)視覺大模型面向以視覺為核心的智慧物聯(lián)領(lǐng)域,通過融合圖像、點云、文本、語音等多模態(tài)數(shù)據(jù)所搭建的,大幅提升了視覺解析能力,該模型為解析式大模型。
博匯科技在1月9日互動問答平臺中表示,公司通過運用人工智能、大數(shù)據(jù)等技術(shù),對采集到的數(shù)據(jù)進行分析、特征學(xué)習(xí)和樣本訓(xùn)練,構(gòu)建智慧監(jiān)管模型,提升了對文本、圖片、音頻、視頻等多模態(tài)數(shù)據(jù)的處理分析能力。
易點天下2月4日在互動問答平臺表示,公司旗下AIGC創(chuàng)作平臺KreadoAI可以幫助企業(yè)實現(xiàn)從腳本撰寫、語音克隆、個性化數(shù)字人選擇到輸出口播視頻的內(nèi)容生產(chǎn)AI化全鏈路閉環(huán)。
因賽集團2023年12月25日在互動平臺表示,公司InsightGPT具備文生文、視頻智能剪輯、圖生視頻等功能,目前正在開發(fā)文生視頻功能。
中泰證券研報指出,跨時代文生視頻模型,有望推動硬件需求進一步提升。Sora基于圖片做長視頻生成,再基于生成視頻做extend,其所需token(文本處理最小單位)數(shù)量相較于文本及圖片模型的推理,有望成數(shù)量級增長,判斷Sora將刺激推理算力需求將持續(xù)上升。此外,推理端token增加、算力需求的增長,也對顯存及帶寬提出更高要求,預(yù)計將拉升400G光通信技術(shù)在以太網(wǎng)中的應(yīng)用,并有望推動800G乃至1.6T光通信技術(shù)的應(yīng)用。
國金證券認為,Sora模型本質(zhì)是基于DiffusionTransformer結(jié)構(gòu)實現(xiàn)的,其中的Diffusion結(jié)構(gòu)能夠通過對圖片加入噪聲進行學(xué)習(xí)并進一步去除噪聲的方式來實習(xí)圖片生成的功能。與文本Condition的結(jié)合能夠使模型得到文生圖的效果。而Sora所用Diffusion是基于Transformer架構(gòu)來實現(xiàn)的,該架構(gòu)在Patchify層將圖像切分成多個patches,轉(zhuǎn)換為序列后作為Transformer的輸入,后續(xù)再疊加Decoder部分預(yù)測噪聲實現(xiàn)Diffusion過程,得到一個清晰的視頻幀。該模型的出現(xiàn)除了能夠利好圖像創(chuàng)作、視頻創(chuàng)意等領(lǐng)域外,同樣能夠在分析師的路演、電話會議,基金經(jīng)理的路演、投資者宣導(dǎo)等工作中發(fā)揮其優(yōu)異的視頻表達效果,從而給受眾更好的視聽體驗,幫助解放投研工作的生產(chǎn)力。