文|偲睿洞察
2023,可謂是數(shù)字人們的“當(dāng)打之年”:
4月,騰訊云發(fā)布智能小樣本數(shù)智人生產(chǎn)平臺(tái)。該平臺(tái)基于通用多模態(tài)大模型技術(shù),只需要3分鐘真人口播視頻、100句語音素材等小樣本,便可通過多模態(tài)數(shù)據(jù)輸入與實(shí)時(shí)建模,制作出與真人近似的“數(shù)智人”;
同月,商湯在發(fā)布的“日日新”大模型體系下,上線了如影數(shù)字人視頻生成平臺(tái),用戶可通過一段5分鐘真人視頻素材生成數(shù)字人;
(商湯如影虛擬人生產(chǎn)平臺(tái) 圖源:商湯)
近日,在上海舉辦的第二十屆中國國際數(shù)碼互動(dòng)娛樂展覽會(huì)(ChinaJoy)上,華為云宣布,與360、網(wǎng)易伏羲、斗魚、愛奇藝等7家互聯(lián)網(wǎng)企業(yè)發(fā)起“華為云盤古大模型互聯(lián)網(wǎng)聯(lián)創(chuàng)計(jì)劃”,并將推出盤古數(shù)字人大模型,探索AI在數(shù)字文娛的創(chuàng)新應(yīng)用。
涌現(xiàn)的數(shù)字人背后,是大模型的傾囊相助:大模型解決了成本難題。在數(shù)字人的下半場(chǎng),誰更有趣,誰更像人,成為大模型時(shí)代的競(jìng)爭(zhēng)主題。
對(duì)于人,好看的皮囊與有趣的靈魂,有一項(xiàng)即可。而對(duì)于數(shù)字人這一產(chǎn)品,二者缺一不可。
那么,大模型如何解決了成本難題,好看的皮囊與有趣的靈魂代價(jià)如何?
數(shù)字人“兵敗”元宇宙
人,總是想著如何替代人。
基于人們的貪婪與懶惰、對(duì)完美的極致渴求,盡管24小時(shí)工作且效率高的機(jī)器人落地遙遙無期,但熱度一直沒降過。更簡(jiǎn)單的數(shù)字人(包括虛擬人、虛擬數(shù)字人),更是火了十幾年:今年已是洛天依出道11周年,現(xiàn)仍居于2023年中國虛擬人百強(qiáng)榜榜首。
11年間,各式各樣的虛擬人紛紛涌現(xiàn):《中國虛擬數(shù)字人影響力指數(shù)報(bào)告》課題組副組長張麗錦表示,虛擬偶像、虛擬員工、虛擬主播這三類是當(dāng)前虛擬數(shù)字人商業(yè)化價(jià)值最高、企業(yè)及資本參與度最強(qiáng)的類型。
(2023年中國虛擬人百強(qiáng)榜 圖源:華泰研究)
目前市面上的身份型虛擬偶像扎堆,但只有極少數(shù)接代言接到手軟。虛擬人偶像鼻祖洛天依,重金打造的柳葉熙、AYAYI,除了接代言,辦演唱會(huì)這類稍縱即逝的福利,并沒有長期“飯碗”存在。
“巨星”背后,是難以估量的巨款。七牛云AIGC事業(yè)部負(fù)責(zé)人許斐在接受媒體采訪時(shí)指出,早期制作一個(gè)純3D數(shù)字人,總成本大約為幾十萬,要做到柳葉熙同等級(jí)別,成本甚至?xí)哌_(dá)百萬,小規(guī)模B端客戶很難去負(fù)擔(dān)。
瑞銀發(fā)布的數(shù)字人研究報(bào)告指出,高級(jí)虛擬人物的先期投入成本平均為3000萬元,后期又需要真人團(tuán)隊(duì)完成拍攝、配音、剪輯。以樂華娛樂的虛擬女團(tuán)A-SOUL為例,其一支單曲制作成本約200萬元,一場(chǎng)線下演唱會(huì)成本約2000萬元。
關(guān)于虛擬偶像,最致命問題是,真人偶像尚且沉浮,缺乏人格魅力的虛擬人如何一直活下去?
職能型虛擬員工小“X”們也出過幾次新聞。例如浦發(fā)銀行的“小浦”,提高了營業(yè)廳業(yè)務(wù)效率;湖南衛(wèi)視“小漾”和何炅一起主持,增添了節(jié)目熱度。
而經(jīng)《銀行科技研究社》測(cè)試體驗(yàn),工行、建行新推出的數(shù)字人智能程度并不高,表現(xiàn)為面對(duì)稍微復(fù)雜的問題便無法回答或答非所問,不能準(zhǔn)確聯(lián)系上下文進(jìn)行理解并給出答案等。
就如百家云總裁馬義所說,虛擬人算一個(gè)不錯(cuò)的點(diǎn),但是想要提供擬人的服務(wù)與體驗(yàn),還有很長的路要走,目前還沒到產(chǎn)生巨大應(yīng)用價(jià)值的時(shí)候。雖然有很多新穎的玩法,但往往一出來很快被同質(zhì)化。
想要玩好虛擬人,必須要讓大家看到長遠(yuǎn)的價(jià)值。相比于“曇花一現(xiàn)”的藝人、“形式大于內(nèi)容”的虛擬員工,虛擬主播所在的電商,無疑成為最具價(jià)值量的賽道。
目前直播間存在主播水平參差不齊,背景混亂,產(chǎn)品展示失焦等問題。而虛擬交互技術(shù),能夠重塑“人貨場(chǎng)”:用AR豐富場(chǎng)景,用3D技術(shù)全方位展示貨品,用動(dòng)作捕捉和LIVE 2D及3D技術(shù)打造中之人,或用AI語料庫鍛煉出能夠?qū)崟r(shí)對(duì)話的虛擬人,并將三者結(jié)合,做一場(chǎng)高科技感,高互動(dòng)性,全新體驗(yàn)的直播。
然而,想要打造現(xiàn)象級(jí)的中之人制作成本高,時(shí)間成本也不容小覷。
去年7月,在抖音擁有42.7萬粉絲的虛擬主播“許安一”迎來了自己的直播百天紀(jì)念日,直播期間在線人數(shù)超過了1萬人。據(jù)自媒體有趣動(dòng)漫社報(bào)道,許安一這一百天的直播中收到970多萬的打賞,相關(guān)知情人士只表示“確實(shí)很強(qiáng),但他們成本也挺高”。據(jù)了解,許安一制作團(tuán)隊(duì)花了將近7個(gè)月的時(shí)間進(jìn)行“人設(shè)”的打造。
在先前的元宇宙時(shí)代,無論是虛擬偶像、員工還是主播都面臨著同質(zhì)化嚴(yán)重,成本關(guān)難過等難題,所以新人難進(jìn),僅有頭部idol,長久地瓜分虛擬人的蛋糕。
從元宇宙到大模型
大模型到來之后,數(shù)字人“容光煥發(fā)”,如雨后春筍般冒出。
我們都知道的是,GPT-4等大模型提高了AI的智力?;诖耍摂M員工、虛擬主播(AI驅(qū)動(dòng)型)能夠提升自己的業(yè)務(wù)能力。
例如,在直播電商場(chǎng)景中,當(dāng)你告訴數(shù)字人帶貨產(chǎn)品的主要特點(diǎn)、價(jià)格以及產(chǎn)品優(yōu)勢(shì),并且讓他以爆笑喜劇風(fēng)設(shè)計(jì)三種直播講稿,數(shù)字人平臺(tái)將會(huì)直接提供幾種不同風(fēng)格的稿件。
百度數(shù)字人業(yè)務(wù)負(fù)責(zé)人李士巖表示,現(xiàn)階段虛擬數(shù)字人的人格化和內(nèi)容運(yùn)營往往受限于前期的創(chuàng)意效率問題,如果能和一些大模型結(jié)合起來,那么就可以通過AIGC拓展創(chuàng)意邊界、提升內(nèi)容生產(chǎn)效率。
創(chuàng)意邊界,毋庸置疑將會(huì)依靠大模型的語料庫、算力儲(chǔ)備,以及其所迸發(fā)的涌現(xiàn)能力來提升,效果仁者見仁智者見智;而內(nèi)容生產(chǎn)效率的提升,已有廠商和客戶給出確切答案:大模型來臨之后,數(shù)字人突然變“便宜”了。
2023年,廠商們搶著給出自己的低成本數(shù)字人:
360透露,目前正重點(diǎn)將數(shù)字人營銷作為大模型落地的商業(yè)化業(yè)務(wù),從年初至今已經(jīng)產(chǎn)生了千萬級(jí)收入。按照會(huì)員用戶每月付費(fèi)的標(biāo)準(zhǔn)估算,一款數(shù)字人的價(jià)格最低幾十元,最高在一、二百元上下。
一家數(shù)字人解決方案的公司風(fēng)平智能表示,原本一家客戶需要請(qǐng)專業(yè)人才完成醫(yī)療咨詢,每年花費(fèi)超過1億,使用大模型驅(qū)動(dòng)的AI數(shù)字人方案之后,費(fèi)用預(yù)計(jì)降低至少80%。
與此同時(shí),客戶也給出了五星好評(píng):確實(shí)省錢。
據(jù)太火梁一親身體驗(yàn),數(shù)字人直播平時(shí)日銷5-10萬,618大促數(shù)字人直播15小時(shí)GMV30萬。
(數(shù)字人直播數(shù)據(jù) 圖源:太火梁一)
以下是其在上海用真人直播18小時(shí)和用數(shù)字人直播18小時(shí)的每月成本對(duì)比(此成本預(yù)估根據(jù)具體人員安排和所在地市,有些許差異)。
綜合市場(chǎng)目前的觀點(diǎn)來看,成本的節(jié)省來源于單個(gè)視頻生成成本,二是多個(gè)行業(yè)遷移成本。
商湯數(shù)字人相關(guān)產(chǎn)品負(fù)責(zé)人表示,基于大模型的AI數(shù)字人視頻生成平臺(tái),可打通從上傳視頻、處理數(shù)據(jù)、訓(xùn)練模型、轉(zhuǎn)換模型到模型部署的自動(dòng)化閉環(huán),將傳統(tǒng)視頻制作流程中的人工處理時(shí)間大幅減少90%,模型訓(xùn)練時(shí)間減少60%,只需1天即能完成各類定制數(shù)字人訓(xùn)練。
風(fēng)平智能CEO林洪祥,給出了新階段數(shù)字人的生成流程與耗時(shí):只需要對(duì)人物進(jìn)行一段5分鐘時(shí)間的視頻拍攝,人物形象就可以有效地建立起來;同樣是幾分鐘的聲音錄制,便可完成聲音采集;接下來視頻、聲音分別進(jìn)行建模,常規(guī)建模周期只需2-5天。
同時(shí),依靠大模型的底座能力,通過輸入多個(gè)小樣本,能夠適應(yīng)多個(gè)場(chǎng)景的業(yè)務(wù)需求。先前的數(shù)字人需要一個(gè)一個(gè)分別培養(yǎng),現(xiàn)階段每個(gè)數(shù)字人皆有通識(shí)知識(shí),“分配”崗位之時(shí),輸入多個(gè)行業(yè)的小樣本之后,便能快速上崗。
大模型過后,數(shù)字人的歷史包袱正一個(gè)一個(gè)被卸下:成本已然得到解決,智力提升“有,但可能不多”,而同質(zhì)化有待考察,亟需精細(xì)化運(yùn)營。
魅力,取決于算力
當(dāng)能夠飛入尋常百姓家之時(shí),數(shù)字人需要對(duì)自己“高要求”。
業(yè)內(nèi)人士,給了些tips:英偉達(dá)副總裁沈威認(rèn)為,多模態(tài)交互和深度學(xué)習(xí)是數(shù)字人真正的靈魂。上??萍即髮W(xué)虞晶怡教授給出了更具體的說法:通過建模、渲染、動(dòng)作捕捉和AI驅(qū)動(dòng)等關(guān)鍵技術(shù)構(gòu)成底層架構(gòu),能夠讓數(shù)字人的外貌更加精致、形象更加逼真,動(dòng)作更加自然。
(數(shù)字人技術(shù)匯總 圖源:騰訊)
而無論是好看的皮囊還是有趣的靈魂,都需算力的傾囊相助。
好看的皮囊,對(duì)于算力加碼的變化是肉眼可見的。據(jù)科技最前線報(bào)道,以阿凡達(dá)為例,《阿凡達(dá)2》所有存儲(chǔ)數(shù)據(jù)總量為18.5PB,而《阿凡達(dá)1》只有1PB。
好看的背后是數(shù)據(jù)量的爆炸倍增,而數(shù)據(jù)量背后的支撐則是澎湃的算力。
在《阿凡達(dá)1》的視覺效果制作中,制作工作室為了渲染其中美輪美奐的特效場(chǎng)景,動(dòng)用了占地10000平方英尺的服務(wù)器群,其中有4,000臺(tái)物理服務(wù)器,共有35,000個(gè)處理器核心。《阿凡達(dá)2》的超級(jí)渲染更是夸張,為了完成部分畫面的渲染任務(wù),制作工作室調(diào)用了六千個(gè)處理器渲染了一年之久。
而有趣的靈魂層面,大模型對(duì)算力的奪取能力更不用說了。據(jù)偲睿洞察測(cè)算,現(xiàn)階段 ChatGPT 日活一億,若每日有5%的人每秒同時(shí)提問,將會(huì)吞噬三峽大壩近一年的發(fā)電量。
假設(shè)有1億人同時(shí)在線,每日有5%的人每秒同時(shí)提問,每個(gè)prompt占30個(gè)token,便需要1530萬顆H100芯片來提供其推理算力;而每顆H100的功耗在750W左右,若每天運(yùn)行10個(gè)小時(shí),這些H100芯片所在的數(shù)據(jù)中心一年的耗電量將達(dá)到840億kW*h,而三峽大壩一年的發(fā)電量是882億kW*h。
這,還只是ChatGPT一個(gè)大模型在推理階段的耗電量,百家大模型全階段、全部運(yùn)作的耗電量,難以估量。此時(shí),大廠的優(yōu)勢(shì)便顯現(xiàn)出來:有多項(xiàng)業(yè)務(wù)去瓜分大模型訓(xùn)練的好處,分擔(dān)其成本。這也就意味著,落實(shí)到數(shù)字人這一項(xiàng)目的成本,較為可觀。
在算力消耗居高不下之時(shí),廠商還要給出一套低功耗的數(shù)字人解決方案,中科深智創(chuàng)始人成維忠表示:客戶的要求首先則是算力消耗要低,國內(nèi)用戶對(duì)這點(diǎn)很敏感,按照現(xiàn)在各家的報(bào)價(jià)來推理,我們的用戶是用不起的。
而算力之外,大模型與數(shù)字人的接洽,也并非十分“愉快”:據(jù)雷鋒網(wǎng)報(bào)道,有用戶反饋,目前市面上的大模型無法滿足他們的要求。
中科深智對(duì)國內(nèi)外主流的大模型進(jìn)行測(cè)試,發(fā)現(xiàn)幾個(gè)問題:第一是調(diào)用的速度不能滿足虛擬人的實(shí)時(shí)交互要求,其實(shí)響應(yīng)速度的問題從原理上來說是解決不了的;第二是國外的模型對(duì)于中文的支持度很差,國內(nèi)的模型雖然調(diào)用的速度快,但是在開放性方面存在問題。
作為現(xiàn)階段大模型為數(shù)不多商業(yè)化落地的數(shù)字人,若要做出差異,好看的皮囊,有趣的靈魂都不可缺少,供應(yīng)商們必然要給足算力與語料庫的“養(yǎng)分”,去建模、渲染、仿真、AI驅(qū)動(dòng),去幽默、帶貨、搬磚······
數(shù)字人的表里,如一地需要算力的支持。