国产在线视频一区二区,亚洲免费99在线

文｜偲睿洞察

2023，可謂是數(shù)字人們的“當(dāng)打之年”：

4月，騰訊云發(fā)布智能小樣本數(shù)智人生產(chǎn)平臺。該平臺基于通用多模態(tài)大模型技術(shù)，只需要3分鐘真人口播視頻、100句語音素材等小樣本，便可通過多模態(tài)數(shù)據(jù)輸入與實時建模，制作出與真人近似的“數(shù)智人”；

同月，商湯在發(fā)布的“日日新”大模型體系下，上線了如影數(shù)字人視頻生成平臺，用戶可通過一段5分鐘真人視頻素材生成數(shù)字人；

（商湯如影虛擬人生產(chǎn)平臺圖源：商湯）

近日，在上海舉辦的第二十屆中國國際數(shù)碼互動娛樂展覽會（ChinaJoy）上，華為云宣布，與360、網(wǎng)易伏羲、斗魚、愛奇藝等7家互聯(lián)網(wǎng)企業(yè)發(fā)起“華為云盤古大模型互聯(lián)網(wǎng)聯(lián)創(chuàng)計劃”，并將推出盤古數(shù)字人大模型，探索AI在數(shù)字文娛的創(chuàng)新應(yīng)用。

涌現(xiàn)的數(shù)字人背后，是大模型的傾囊相助：大模型解決了成本難題。在數(shù)字人的下半場，誰更有趣，誰更像人，成為大模型時代的競爭主題。

對于人，好看的皮囊與有趣的靈魂，有一項即可。而對于數(shù)字人這一產(chǎn)品，二者缺一不可。

那么，大模型如何解決了成本難題，好看的皮囊與有趣的靈魂代價如何？

數(shù)字人“兵敗”元宇宙

人，總是想著如何替代人。

基于人們的貪婪與懶惰、對完美的極致渴求，盡管24小時工作且效率高的機器人落地遙遙無期，但熱度一直沒降過。更簡單的數(shù)字人（包括虛擬人、虛擬數(shù)字人），更是火了十幾年：今年已是洛天依出道11周年，現(xiàn)仍居于2023年中國虛擬人百強榜榜首。

11年間，各式各樣的虛擬人紛紛涌現(xiàn)：《中國虛擬數(shù)字人影響力指數(shù)報告》課題組副組長張麗錦表示，虛擬偶像、虛擬員工、虛擬主播這三類是當(dāng)前虛擬數(shù)字人商業(yè)化價值最高、企業(yè)及資本參與度最強的類型。

（2023年中國虛擬人百強榜圖源：華泰研究）

目前市面上的身份型虛擬偶像扎堆，但只有極少數(shù)接代言接到手軟。虛擬人偶像鼻祖洛天依，重金打造的柳葉熙、AYAYI，除了接代言，辦演唱會這類稍縱即逝的福利，并沒有長期“飯碗”存在。

“巨星”背后，是難以估量的巨款。七牛云AIGC事業(yè)部負(fù)責(zé)人許斐在接受媒體采訪時指出，早期制作一個純3D數(shù)字人，總成本大約為幾十萬，要做到柳葉熙同等級別，成本甚至?xí)哌_(dá)百萬，小規(guī)模B端客戶很難去負(fù)擔(dān)。

瑞銀發(fā)布的數(shù)字人研究報告指出，高級虛擬人物的先期投入成本平均為3000萬元，后期又需要真人團隊完成拍攝、配音、剪輯。以樂華娛樂的虛擬女團A-SOUL為例，其一支單曲制作成本約200萬元，一場線下演唱會成本約2000萬元。

關(guān)于虛擬偶像，最致命問題是，真人偶像尚且沉浮，缺乏人格魅力的虛擬人如何一直活下去？

職能型虛擬員工小“X”們也出過幾次新聞。例如浦發(fā)銀行的“小浦”，提高了營業(yè)廳業(yè)務(wù)效率；湖南衛(wèi)視“小漾”和何炅一起主持，增添了節(jié)目熱度。

而經(jīng)《銀行科技研究社》測試體驗，工行、建行新推出的數(shù)字人智能程度并不高，表現(xiàn)為面對稍微復(fù)雜的問題便無法回答或答非所問，不能準(zhǔn)確聯(lián)系上下文進(jìn)行理解并給出答案等。

就如百家云總裁馬義所說，虛擬人算一個不錯的點，但是想要提供擬人的服務(wù)與體驗，還有很長的路要走，目前還沒到產(chǎn)生巨大應(yīng)用價值的時候。雖然有很多新穎的玩法，但往往一出來很快被同質(zhì)化。

想要玩好虛擬人，必須要讓大家看到長遠(yuǎn)的價值。相比于“曇花一現(xiàn)”的藝人、“形式大于內(nèi)容”的虛擬員工，虛擬主播所在的電商，無疑成為最具價值量的賽道。

目前直播間存在主播水平參差不齊，背景混亂，產(chǎn)品展示失焦等問題。而虛擬交互技術(shù)，能夠重塑“人貨場”：用AR豐富場景，用3D技術(shù)全方位展示貨品，用動作捕捉和LIVE 2D及3D技術(shù)打造中之人，或用AI語料庫鍛煉出能夠?qū)崟r對話的虛擬人，并將三者結(jié)合，做一場高科技感，高互動性，全新體驗的直播。

然而，想要打造現(xiàn)象級的中之人制作成本高，時間成本也不容小覷。

去年7月，在抖音擁有42.7萬粉絲的虛擬主播“許安一”迎來了自己的直播百天紀(jì)念日，直播期間在線人數(shù)超過了1萬人。據(jù)自媒體有趣動漫社報道，許安一這一百天的直播中收到970多萬的打賞，相關(guān)知情人士只表示“確實很強，但他們成本也挺高”。據(jù)了解，許安一制作團隊花了將近7個月的時間進(jìn)行“人設(shè)”的打造。

在先前的元宇宙時代，無論是虛擬偶像、員工還是主播都面臨著同質(zhì)化嚴(yán)重，成本關(guān)難過等難題，所以新人難進(jìn)，僅有頭部idol，長久地瓜分虛擬人的蛋糕。

從元宇宙到大模型

大模型到來之后，數(shù)字人“容光煥發(fā)”，如雨后春筍般冒出。

我們都知道的是，GPT-4等大模型提高了AI的智力?；诖?，虛擬員工、虛擬主播（AI驅(qū)動型）能夠提升自己的業(yè)務(wù)能力。

例如，在直播電商場景中，當(dāng)你告訴數(shù)字人帶貨產(chǎn)品的主要特點、價格以及產(chǎn)品優(yōu)勢，并且讓他以爆笑喜劇風(fēng)設(shè)計三種直播講稿，數(shù)字人平臺將會直接提供幾種不同風(fēng)格的稿件。

百度數(shù)字人業(yè)務(wù)負(fù)責(zé)人李士巖表示，現(xiàn)階段虛擬數(shù)字人的人格化和內(nèi)容運營往往受限于前期的創(chuàng)意效率問題，如果能和一些大模型結(jié)合起來，那么就可以通過AIGC拓展創(chuàng)意邊界、提升內(nèi)容生產(chǎn)效率。

創(chuàng)意邊界，毋庸置疑將會依靠大模型的語料庫、算力儲備，以及其所迸發(fā)的涌現(xiàn)能力來提升，效果仁者見仁智者見智；而內(nèi)容生產(chǎn)效率的提升，已有廠商和客戶給出確切答案：大模型來臨之后，數(shù)字人突然變“便宜”了。

2023年，廠商們搶著給出自己的低成本數(shù)字人：

360透露，目前正重點將數(shù)字人營銷作為大模型落地的商業(yè)化業(yè)務(wù)，從年初至今已經(jīng)產(chǎn)生了千萬級收入。按照會員用戶每月付費的標(biāo)準(zhǔn)估算，一款數(shù)字人的價格最低幾十元，最高在一、二百元上下。

一家數(shù)字人解決方案的公司風(fēng)平智能表示，原本一家客戶需要請專業(yè)人才完成醫(yī)療咨詢，每年花費超過1億，使用大模型驅(qū)動的AI數(shù)字人方案之后，費用預(yù)計降低至少80%。

與此同時，客戶也給出了五星好評：確實省錢。

據(jù)太火梁一親身體驗，數(shù)字人直播平時日銷5-10萬，618大促數(shù)字人直播15小時GMV30萬。

（數(shù)字人直播數(shù)據(jù) 圖源：太火梁一）

以下是其在上海用真人直播18小時和用數(shù)字人直播18小時的每月成本對比（此成本預(yù)估根據(jù)具體人員安排和所在地市，有些許差異）。

綜合市場目前的觀點來看，成本的節(jié)省來源于單個視頻生成成本，二是多個行業(yè)遷移成本。

商湯數(shù)字人相關(guān)產(chǎn)品負(fù)責(zé)人表示，基于大模型的AI數(shù)字人視頻生成平臺，可打通從上傳視頻、處理數(shù)據(jù)、訓(xùn)練模型、轉(zhuǎn)換模型到模型部署的自動化閉環(huán)，將傳統(tǒng)視頻制作流程中的人工處理時間大幅減少90%，模型訓(xùn)練時間減少60%，只需1天即能完成各類定制數(shù)字人訓(xùn)練。

風(fēng)平智能CEO林洪祥，給出了新階段數(shù)字人的生成流程與耗時：只需要對人物進(jìn)行一段5分鐘時間的視頻拍攝，人物形象就可以有效地建立起來；同樣是幾分鐘的聲音錄制，便可完成聲音采集；接下來視頻、聲音分別進(jìn)行建模，常規(guī)建模周期只需2-5天。

同時，依靠大模型的底座能力，通過輸入多個小樣本，能夠適應(yīng)多個場景的業(yè)務(wù)需求。先前的數(shù)字人需要一個一個分別培養(yǎng)，現(xiàn)階段每個數(shù)字人皆有通識知識，“分配”崗位之時，輸入多個行業(yè)的小樣本之后，便能快速上崗。

大模型過后，數(shù)字人的歷史包袱正一個一個被卸下：成本已然得到解決，智力提升“有，但可能不多”，而同質(zhì)化有待考察，亟需精細(xì)化運營。

魅力，取決于算力

當(dāng)能夠飛入尋常百姓家之時，數(shù)字人需要對自己“高要求”。

業(yè)內(nèi)人士，給了些tips：英偉達(dá)副總裁沈威認(rèn)為，多模態(tài)交互和深度學(xué)習(xí)是數(shù)字人真正的靈魂。上海科技大學(xué)虞晶怡教授給出了更具體的說法：通過建模、渲染、動作捕捉和AI驅(qū)動等關(guān)鍵技術(shù)構(gòu)成底層架構(gòu)，能夠讓數(shù)字人的外貌更加精致、形象更加逼真，動作更加自然。

（數(shù)字人技術(shù)匯總圖源：騰訊）

而無論是好看的皮囊還是有趣的靈魂，都需算力的傾囊相助。

好看的皮囊，對于算力加碼的變化是肉眼可見的。據(jù)科技最前線報道，以阿凡達(dá)為例，《阿凡達(dá)2》所有存儲數(shù)據(jù)總量為18.5PB，而《阿凡達(dá)1》只有1PB。

好看的背后是數(shù)據(jù)量的爆炸倍增，而數(shù)據(jù)量背后的支撐則是澎湃的算力。

在《阿凡達(dá)1》的視覺效果制作中，制作工作室為了渲染其中美輪美奐的特效場景，動用了占地10000平方英尺的服務(wù)器群，其中有4,000臺物理服務(wù)器，共有35,000個處理器核心?！栋⒎策_(dá)2》的超級渲染更是夸張，為了完成部分畫面的渲染任務(wù)，制作工作室調(diào)用了六千個處理器渲染了一年之久。

而有趣的靈魂層面，大模型對算力的奪取能力更不用說了。據(jù)偲睿洞察測算，現(xiàn)階段 ChatGPT 日活一億，若每日有5%的人每秒同時提問，將會吞噬三峽大壩近一年的發(fā)電量。

假設(shè)有1億人同時在線，每日有5%的人每秒同時提問，每個prompt占30個token，便需要1530萬顆H100芯片來提供其推理算力；而每顆H100的功耗在750W左右，若每天運行10個小時，這些H100芯片所在的數(shù)據(jù)中心一年的耗電量將達(dá)到840億kW*h，而三峽大壩一年的發(fā)電量是882億kW*h。

這，還只是ChatGPT一個大模型在推理階段的耗電量，百家大模型全階段、全部運作的耗電量，難以估量。此時，大廠的優(yōu)勢便顯現(xiàn)出來：有多項業(yè)務(wù)去瓜分大模型訓(xùn)練的好處，分擔(dān)其成本。這也就意味著，落實到數(shù)字人這一項目的成本，較為可觀。

在算力消耗居高不下之時，廠商還要給出一套低功耗的數(shù)字人解決方案，中科深智創(chuàng)始人成維忠表示：客戶的要求首先則是算力消耗要低，國內(nèi)用戶對這點很敏感，按照現(xiàn)在各家的報價來推理，我們的用戶是用不起的。

而算力之外，大模型與數(shù)字人的接洽，也并非十分“愉快”：據(jù)雷鋒網(wǎng)報道，有用戶反饋，目前市面上的大模型無法滿足他們的要求。

中科深智對國內(nèi)外主流的大模型進(jìn)行測試，發(fā)現(xiàn)幾個問題：第一是調(diào)用的速度不能滿足虛擬人的實時交互要求，其實響應(yīng)速度的問題從原理上來說是解決不了的；第二是國外的模型對于中文的支持度很差，國內(nèi)的模型雖然調(diào)用的速度快，但是在開放性方面存在問題。

作為現(xiàn)階段大模型為數(shù)不多商業(yè)化落地的數(shù)字人，若要做出差異，好看的皮囊，有趣的靈魂都不可缺少，供應(yīng)商們必然要給足算力與語料庫的“養(yǎng)分”，去建模、渲染、仿真、AI驅(qū)動，去幽默、帶貨、搬磚······

數(shù)字人的表里，如一地需要算力的支持。