界面新聞?dòng)浾?| 陳振芳
界面新聞編輯 | 文姝琪
9月6日上午,在界面新聞舉辦的2024 REAL科技大會(huì)上, 商湯數(shù)字文娛事業(yè)部總經(jīng)理欒青在演講中介紹,商湯為AI大模型全方位布局,覆蓋算力基礎(chǔ)層、AI模型層與上層應(yīng)用。
商湯大裝置管理的算力實(shí)現(xiàn)了全國(guó)聯(lián)網(wǎng)的統(tǒng)一調(diào)度,在上海、深圳、廣州、福州、濟(jì)南、重慶等地都拓展了新的計(jì)算節(jié)點(diǎn),截止2024年7月,總算力規(guī)模高達(dá)20000 petaFLOPS ,已有超5.4萬塊GPU。
今年7月,商湯發(fā)布“日日新5o”模型,交互體驗(yàn)對(duì)標(biāo)GPT-4o,實(shí)現(xiàn)全新AI交互模式。該模型能夠整合跨模態(tài)信息,通過基于聲音、文本、圖像和視頻等多種形式,呈現(xiàn)實(shí)時(shí)的流式多模態(tài)交互。
在視頻生成領(lǐng)域,商湯在7月發(fā)布首個(gè)“可控”人物視頻生成大模型Vimi,該模型主要面向C端用戶,支持聊天、唱歌、舞動(dòng)等多種娛樂互動(dòng)場(chǎng)景。Vimi可生成長(zhǎng)達(dá)1分鐘的單鏡頭人物類視頻,畫面效果不會(huì)隨著時(shí)間的變化而劣化或失真,通過一張任意風(fēng)格的照片就能生成和目標(biāo)動(dòng)作一致的人物類視頻,通過已有人物視頻、動(dòng)畫、聲音、文字等多種元素進(jìn)行驅(qū)動(dòng)。
欒青提出,2024年將成為AI視頻的應(yīng)用元年,未來三到五年,更多應(yīng)用場(chǎng)景將隨著模型能力提升和推理成本下降逐步解鎖。
其次,AI視頻生成將重塑傳統(tǒng)視頻制作工作,整合音視頻創(chuàng)作的流程方法變?yōu)橐粋€(gè)整體,降低AI視頻內(nèi)容的制作門檻,并以全新視頻交互界面展現(xiàn)。
過去十幾年,視頻產(chǎn)業(yè)一直不斷地發(fā)展,制作一個(gè)視頻從幾百人的團(tuán)隊(duì),精簡(jiǎn)至幾十個(gè)人的網(wǎng)劇團(tuán)隊(duì),再到個(gè)人也可以創(chuàng)作短視頻。技術(shù)推動(dòng)下,視頻團(tuán)隊(duì)和制作時(shí)間不斷精簡(jiǎn),而視頻數(shù)量卻在指數(shù)級(jí)的爆增,人類的消費(fèi)習(xí)慣從曾經(jīng)的看文案、圖片、新聞,變成了看視頻。
欒青認(rèn)為,當(dāng)視頻的生成速度更快,甚至達(dá)到實(shí)時(shí)生成視頻,AI能夠帶來新的交互體驗(yàn),例如通過算法自動(dòng)地控制人物動(dòng)作,實(shí)時(shí)可交互的視頻。
當(dāng)前,AI視頻生成有兩大方向,一是用文字提示生成視頻;另一個(gè)則是用其他信號(hào),比如可控的邏輯性信號(hào)。例如動(dòng)畫設(shè)計(jì)師會(huì)捕捉人體和自然信號(hào),再讓人工智能學(xué)習(xí),最終完成。這樣生成的人物不僅合理,還能隨著可控的信號(hào)進(jìn)行變化。
欒青也提到,AI視頻大模型在人物類視頻生成上存在三大挑戰(zhàn):人物動(dòng)作、表情難以精確控制,出效果僅靠大量“抽卡” ;人物身份穩(wěn)定性不高,“常常換長(zhǎng)相” ;僅支持穩(wěn)定生成3-4秒時(shí)長(zhǎng),難以滿足需求。因此,日常視頻創(chuàng)作尚未達(dá)到可用的階段。
“當(dāng)前人們每天看到的視頻80%都是人物為主題的視頻?!?/p>
欒青介紹,商湯正在嘗試用APP幫助用戶來生成視頻寫真大片,利用AI算法控制運(yùn)鏡、光影變化、人物背景,讓內(nèi)容變得更真實(shí)和自然。例如用戶輸入一張照片,大模型產(chǎn)品也可以用不同的動(dòng)畫方式去制作內(nèi)容,讓內(nèi)容形式更為豐富。
欒青認(rèn)為,隨著AGI技術(shù)在視頻領(lǐng)域的深入,除了生產(chǎn)效率的變化,更多的是全新體驗(yàn)。大模型的能力可以讓普通人更好的進(jìn)行創(chuàng)作。