文|甲子光年 周曉莉
編輯|劉景豐
數(shù)字人正在攻城略地。
在視頻平臺,越來越多數(shù)字人成為up主。11月15日,百度AI數(shù)字人希加加、度曉曉、林開開、葉悠悠等在快手賬號發(fā)布一條入駐快手短視頻,宣告百度數(shù)字人家族集體入駐快手。而B站上的直播一欄,也已經(jīng)有專門的虛擬主播選項。
在營銷圈,百度AI數(shù)字人“希加加”已經(jīng)搶了麥當勞產(chǎn)品推薦官的飯碗;A-SOUL的人氣虛擬偶像“嘉然”成為PICO的首場VR主播;而奇瑞汽車和花點時間則先后宣布將虛擬數(shù)字人“阿喜Angie”作為自己的品牌代言人;另一位數(shù)字人國風少女“翎_LING”更是斬獲了特斯拉、寶格麗、雅詩蘭黛等多個大牌的代言。
當然,說到這里也不能少了“柳夜熙”。2021年,憑借國風美妝“捉妖”人設(shè),在抖音爆火的“柳夜熙”,至今合作的品牌包括百度Apollo、小鵬汽車、VIVO,還有嬌韻詩、安踏、字節(jié)游戲等超200個品牌。
數(shù)字人,似乎在以肉眼可見的速度成為新的流量明星。而數(shù)字人背后的企業(yè),也在今年賺足了資本的注意力。
然而,一個尷尬的現(xiàn)實是,爆火的數(shù)字人背后,真正能持久運營的少之又少。在抖音平臺,就連數(shù)字人中的頂流“柳夜熙”目前也只更新了23期內(nèi)容。而為了做好內(nèi)容,柳夜熙已經(jīng)配備了140余人的創(chuàng)意團隊,單單一個作品的全部參與人員會在200人左右。
這意味著,要花費巨額的運營成本。而通常,維持一個虛擬人的運營,一年就要花費七八百萬元。
這也使得,數(shù)字人這個行業(yè)如同她那盛世美顏——華美的臉龐之下,盡是辛酸。
1.120億買來了什么?
2021年10月31日,“柳夜熙”憑借一條“捉妖”題材短視頻爆紅,一夜?jié)q粉363萬。這是許多人開始認識虛擬人的第一課——流量。
從此以后,各大虛擬人紛紛出現(xiàn),并賺足了一時的眼球:數(shù)字員工“崔筱盼”榮獲2021年萬科總部最佳新人獎,虛擬人“鄧麗君”在江蘇衛(wèi)視2022跨年演唱會亮相,湖南衛(wèi)視全新綜藝《你好,星期六》啟用數(shù)字主持人“小漾”……
數(shù)字人爆火于2021,延續(xù)于2022。相關(guān)數(shù)據(jù)顯示,截止2022年10月,國內(nèi)虛擬數(shù)字人領(lǐng)域融資數(shù)量近百起,金額約120億元。然而,這120億元的投資,目前看并沒有給整個行業(yè)帶來一個亮眼的表現(xiàn),反而熱度一過,亂象叢生。
憑捉妖視頻走紅的“柳夜熙”,已經(jīng)是當下虛擬數(shù)字人的代表。在其抖音賬號,目前發(fā)布的作品共有23條。相比抖音上其他視頻的日更或周更頻率,“柳夜熙”這一創(chuàng)作速度顯然無法滿足人們的需求。
實際上,這已是數(shù)字人賬號中更新比較頻繁的了。抖音上,國風數(shù)字人翎_LING自2020年11月于抖音發(fā)布第一條視頻以來,至今也只有區(qū)區(qū)12條。最靠前的幾條全是與品牌合作的廣告視頻,最后一條視頻停在了今年9月份為某橄欖油拍攝的廣告,此后就陷入停滯。
在企業(yè)端,擔任全球鞋類巨頭斯凱奇潮流主理人的數(shù)字人孔襄,于今年4月份在抖音正式出道發(fā)布第一條視頻,截至到目前也僅發(fā)布了8條視頻,這其中,有3條是在4月份發(fā)布的,最后一條視頻停更在今年9月,已顯現(xiàn)后繼無力的征兆。
雖然一代又一代虛擬數(shù)字人蜂擁而至,但它們中的多數(shù)并未在市場中激起太大浪花,就已消失不見。
除了更新乏力,一些數(shù)字人在呈現(xiàn)方式上也有很多“貓膩”。
快手 Y-Tech 技術(shù)專家施侃樂博士告訴「甲子光年」,如果數(shù)字人在短視頻平臺的前三秒不能吸引到用戶,用戶大概率會流失,所以虛擬人的形象需要做到在三秒鐘之內(nèi)讓用戶愛上。這其中可能是通過卡通式的可愛、也可能是通過仿真人的逼真,但都需要做到盡可能的優(yōu)秀。
有數(shù)字人行業(yè)相關(guān)人士告訴「甲子光年」,大部分報價低、且聲稱能夠打造數(shù)字人的公司,其實是在做動畫,“只不過把動畫模型一點點摳出來罷了?!?/p>
還有些號稱超寫實的數(shù)字人,其數(shù)字人根本就不是3D模型,而是真人。在做直播的時候,為了節(jié)省成本,采取用真人直播+AI換臉的半虛擬方案——除臉部是數(shù)字化構(gòu)建外,其他地方,凡是不涉及到臉部特寫,只要衣服、身形比例差不多,就可以用真人來實拍。
這種走“捷徑”的方式,就會導(dǎo)致行業(yè)缺少對虛擬人生產(chǎn)技術(shù)的重視,長期來看一定會影響數(shù)字人的發(fā)展。實際上,已有很多知名的數(shù)字人案例遭到吐槽,比如登上春晚的虛擬數(shù)字人“翎_LING”就被吐槽面部僵硬一眼假;北京國際電影節(jié)的元宇宙星推官虛擬數(shù)字人“梅澀甜”也被吐槽角色建模塑膠感嚴重,“土味十足”;首個國風虛擬男藝人“秦佑”同樣被吐槽“毫無特色”。
在商業(yè)化上,數(shù)字人帶貨盡管噱頭很大,但并沒有達到預(yù)期。數(shù)字人沒有真人的產(chǎn)品感知,天然就存在局限性。以數(shù)字人“翎_LING”為例,2021年翎_LING在小紅書發(fā)布筆記,稱某品牌口紅“滋潤不干”,隨后就遭到網(wǎng)友質(zhì)疑,“虛擬人怎么知道這唇膏涂上去干不干?”
不是真人的數(shù)字人在試圖以“人”的角度評測產(chǎn)品時,由于虛擬人是出現(xiàn)在虛擬環(huán)境中,而商品是在現(xiàn)實環(huán)境中,如果沒能解決好兩者的互動關(guān)系,很大程度上會適得其反。
此外,為數(shù)字人提供設(shè)備解決方案的上游企業(yè),普遍的做法是先為客戶提供數(shù)字人的一次性解決方案,但條件是要讓客戶長期購買其軟件服務(wù),每年再交一些服務(wù)費。更像是借著數(shù)字人的火熱,先用數(shù)字人做“誘餌”,實則還是推平臺軟件來收費。
還有一些to B公司,在為客戶做完方案之后卻不把數(shù)字資產(chǎn)給客戶,而只是做一個最終圖片或是視頻的交付。因為擔心客戶在拿走數(shù)字資產(chǎn)后,會去找其他的供應(yīng)商做內(nèi)容,后續(xù)就很難賺到錢。這類公司普遍存在的難點在于,在打包產(chǎn)品的時候如果沒能沉淀出平臺能力,就只能在項目制徘徊,無法復(fù)用,難以走向平臺化。
再加上元宇宙的概念之下,雖然大廠基本都在布局數(shù)字人相關(guān)業(yè)務(wù),但是不少數(shù)字人訂單實際上是外包給第三方公司。由于各家的技術(shù)標準不一樣,讓數(shù)字人在數(shù)字資產(chǎn)制作、人物渲染、人工智能訓練、構(gòu)建知識庫,打造生產(chǎn)內(nèi)容能力之間的各個節(jié)點比較割裂,致使成本更高,且最終生產(chǎn)出來的數(shù)字人,較之原始需求想要達到的效果出現(xiàn)折損。
據(jù)清華大學新聞與傳播學院元宇宙文化實驗室近期發(fā)布的《元宇宙發(fā)展研究報告3.0》顯示,當前虛擬IP正面臨不同程度的熱度減退、用戶新鮮感喪失等難題。從品牌角度,制作高品質(zhì)虛擬IP成本較高,而后繼運營乏力,無高水準交互能力支撐,IP價值呈現(xiàn)回落態(tài)勢。
2.花100萬“造人”,花800萬運營
一位數(shù)字人行業(yè)從業(yè)者向「甲子光年」表達了一個觀察:在數(shù)字人剛開始火的時候,大家會更注重數(shù)字人的皮相,所以面數(shù)(注:面數(shù)指的是3D人物的三角形個數(shù),通常三角形的個數(shù)越多人物越逼真。)高制作精良的數(shù)字人就容易出圈。但這類數(shù)字人一旦出圈以后,后面的驅(qū)動極貴,到后期的維護成本會很高。這時候IP能不能成功,不僅僅是虛擬人的面數(shù)以及視頻是否制作精良,而是很大程度上取決于它背后的世界觀,它的故事性。
一句話就是,漂亮的皮囊靠不住,還得是有趣的靈魂。
這也就解釋了,為什么全球有超過3萬個數(shù)字人,然而能被人記住的卻寥寥無幾。
據(jù)業(yè)內(nèi)人士透露,很多剛進入這個行業(yè)的人,由于對行業(yè)了解不夠,不是從現(xiàn)實出發(fā),而是在趕潮流的情況下做了一款超寫實的數(shù)字人,認為有100萬就能夠?qū)?shù)字人做得很好,但忽略了后期運營的預(yù)算實際上是前者的數(shù)倍。因為只要用它,后面就要持續(xù)投入,一旦預(yù)算不夠,這個超寫實的數(shù)字人也就做廢了。
目前來看,僅僅打造一款超寫實數(shù)字人的價格通常就在100萬元左右,費用成本主要在形象設(shè)計、建模綁定和渲染驅(qū)動三大部分。
以抖音美妝達人“柳夜熙”為例,其制作企業(yè)創(chuàng)壹科技CEO梁子康曾對媒體表示,“柳夜熙”僅制作投入就在百萬元級別,而第一條“柳夜熙”的短視頻成本約幾十萬元。超寫實虛擬人視頻每秒的成本都在萬元區(qū)間。
除此外,虛擬數(shù)字人還需要技術(shù)驅(qū)動,傳統(tǒng)通過真人驅(qū)動的模式,需要穿動作捕捉服才能達到對虛擬人的微表情控制。而僅一套專業(yè)動捕服就需要幾十萬到幾百萬不等的投入,同時需要十幾個人的團隊進行維護,穿這套動捕服,再加上頭盔的校準都需要一個小時。
當然,這些只是技術(shù)、裝備上的價格,更大的成本在內(nèi)容。
“柳夜熙”雖然沒有固定的中之人(注:中之人指虛擬人背后的真人操作者)但也必須要在內(nèi)容以及運營上,保證IP人設(shè)的一致性、連貫性,還要不斷有新創(chuàng)意,這并非易事。
“柳夜熙”背后的運營公司創(chuàng)壹科技創(chuàng)始人謝多盛向「甲子光年」坦言,打造“柳夜熙”,最難的地方的確在于如何去構(gòu)建它的世界觀,因為世界觀才能輔助數(shù)字人完成精神價值。
“柳夜熙”找到的突破口是,定位2.5次元、國風美妝、以捉妖師來和元宇宙的劇情做貼合。從“柳夜熙”目前發(fā)布的短視頻來看,懸疑劇情銜接緊密,畫風不輸電影質(zhì)感,每個短視頻都能傳遞出它想要構(gòu)建的世界觀,頗具看點。
有網(wǎng)友在“柳夜熙”的抖音賬號下留言;“感覺好像在看電影啊”,“立意做得也好”……所以,“柳夜熙”的成功,本質(zhì)上還是內(nèi)容能力的成功。
“柳夜熙”這類內(nèi)容的一條3-5分鐘的視頻背后,有相當多的人力支撐。謝多盛告訴「甲子光年」,柳夜熙的整個創(chuàng)意團隊目前大概140號人,但實際在柳夜熙的制作拍攝過程中,整體一個作品的參與人員會在200人左右。
“柳夜熙”團隊曾透露,推出“柳夜熙”之前的半年多時間,研發(fā)成本、人員成本、技術(shù)成本等投入已“遠超百萬元”。小冰公司首席運營官、人工智能創(chuàng)造力實驗室負責人徐元春也曾表示,目前運用3D建模等類似技術(shù)制作的超寫實虛擬人,僅單個形象部分,3D模型成本就在30萬元至45萬元左右,運營一年可能要花掉五六百萬元。
這里面,一段3分鐘左右的超高清數(shù)字人動畫制作費用動輒就要幾十萬元,從策劃到籌備需要1~2個月的時間,總體成本接近一個S級的網(wǎng)劇。再加上在數(shù)字人本身費用、直播費用、以及元宇宙空間打造上的投入,沒幾百萬根本下不來。
單以數(shù)字人直播來說,數(shù)字人每次直播運行的一排設(shè)備、幾十個光追攝像頭、所有的光學動作捕捉、場景燈光修正、視覺動作捕捉,每一個小的技術(shù)點的修正價格,都在萬元往上。那些更逼真的數(shù)字人,會對面部表情精度以及頭發(fā)紋理有更高的要求,對于它的驅(qū)動就會更難,成本也極高。
這也就是為何有些超寫實的數(shù)字人做到很逼真,卻只能靜態(tài)呈現(xiàn)。即便是動態(tài),也是在2D或者是一些簡單模型上面去做。在這個行業(yè),數(shù)字人的成本往往先通過面數(shù)來評估工作量,再制定相應(yīng)成本,也由于行業(yè)的非標性,導(dǎo)致沒有具體價格,價格彈性就導(dǎo)致價格不透明。
對于數(shù)字人的運營成本,某從業(yè)者估算了一個更大的數(shù)字,“假如建?;?00萬,另外至少再放800萬準備去用它”。而所謂的“用它”也就是讓其動起來,比如數(shù)字人的語音表達、 面部表情、 動作生成等,都需要AI驅(qū)動,這是投入的大頭。
一個反面的例子是,某從業(yè)者曾接觸過一家銀行,對方希望打造一款數(shù)字人。最早其先與某元宇宙數(shù)字整合營銷服務(wù)商進行合作,合作項目分別是數(shù)字人本身費用、短視頻費用、直播費用以及元宇宙空間。
其中還用數(shù)字人搞了一場脫口秀直播,這就涉及到場地、真人演員、軟硬件的動捕設(shè)備、演播室系統(tǒng)等等。除開這些本身成本之外,提供服務(wù)方還需要從中賺到利潤。結(jié)果就是,合作了僅半年,就已經(jīng)花費了三四百萬。
錢沒少花,技術(shù)上的交付成果卻很粗糙。據(jù)了解,這家銀行由于元宇宙空間還未上線,只能繼續(xù)和這家廠商合作,但其余的項目都已經(jīng)主動尋找其他廠商去提供服務(wù)了。
3.我們需要多少數(shù)字人?
在今年7月21日的2022百度世界大會現(xiàn)場上,百度集團資深副總裁、百度移動生態(tài)事業(yè)群組(MEG)總經(jīng)理何俊杰做了一個出人意料的判斷,“‘人均一個數(shù)字人’的時代已經(jīng)到來”。
可從目前數(shù)字人的發(fā)展來看,無論是在變現(xiàn)還是新玩法上都陷入了瓶頸。在市場認知上,頂流無非就那么幾個,用戶端對于數(shù)字人的接受程度并沒有想象中高,在影響力上面也沒有一個更大的突破。
這不禁讓人發(fā)問,在產(chǎn)業(yè)技術(shù)尚還沒有得到大升級的條件下,市場真的需要這么多數(shù)字人嗎?
當前數(shù)字人經(jīng)常被詬病的一點在于,是只有一個數(shù)字“皮囊”卻沒有“靈魂”,無法做到與人更自然的交互,更不具備“情感連接”。
施侃樂博士表示,無論是數(shù)字人背后的主體(即中之人或人工智能)的主觀能動性、感染力等綜合的吸引力,還是通過“皮囊”表現(xiàn)出的擬真程度,(即面部的微表情、一顰一笑),這兩點都是虛擬人技術(shù)的深水區(qū)。尤其在主體的主觀能動性上,目前人工智能還很難在模擬人類表演和情緒上完全通過圖靈測試。
此外,從多個維度去看數(shù)字人,也遠沒到真正的產(chǎn)業(yè)爆發(fā)點。
從市場層面來看,當前的數(shù)字人更多是應(yīng)用在to B、to G領(lǐng)域中,還處在一個非常早期的市場教育階段,在to B尚未形成規(guī)?;臅r候,對于to C就更需要前者先去普及。所以當前的to C領(lǐng)域還需要較長時間的培育,目前的商業(yè)化都還在探索之中,主要以品牌掏錢為主。
從AI技術(shù)上,當數(shù)字人有了皮相之后,它后面的驅(qū)動以及對話,如果沒有一個非常好的AI大腦,也只能局限在中之人里。目前對于數(shù)字人的制作難點在實時交互上,要做到實時交互,不僅需要有Unity這樣的實時3D引擎來完成高畫質(zhì)渲染,同時也需要語音、智能系統(tǒng)、硬件設(shè)備、網(wǎng)絡(luò)甚至算力的系統(tǒng)配合,需要各個學科協(xié)同發(fā)展。
從產(chǎn)銷情況上,市場早期階段,數(shù)字人缺乏大規(guī)模的商用場景,更多用在B端。數(shù)字人普遍集中在服務(wù)型數(shù)字人,如虛擬客服、銀行虛擬業(yè)務(wù)員、景區(qū)導(dǎo)覽數(shù)字人。而形象IP級的數(shù)字人,多是用于品牌傳播,但由于后期內(nèi)容運營成本昂貴,各家都在探索階段。
從承載數(shù)字人的“場域”上,由于數(shù)字人涉及云端渲染、動捕、NLP等技術(shù),對技術(shù)和資金投入要求高,從前期的設(shè)備投入到后期的人力時間,都在一定程度上阻礙了數(shù)字人的大規(guī)模商用。同時,要考慮將數(shù)字人運用在什么樣的場才能夠更好地去承載它的算力,比如影視級或者是CG游戲級的,設(shè)備還很難跟上,現(xiàn)在的場更依賴于大廠推動。
雖然借著元宇宙敘事,很大程度上能加快數(shù)字人的發(fā)展進程,但也只有在技術(shù)上將成本降下來,才能更好地去規(guī)?;?/p>
其次,還需要實現(xiàn)元宇宙“破壁”般的萬物融合,讓數(shù)字人在元宇宙里面可以真正去提供服務(wù),陪伴用戶進行其他場合和平臺的社交、游戲、辦公等活動,而不是單點式地提供某一種類型的價值。
宙予科技創(chuàng)始人兼CEO朱峰認為,數(shù)字人要結(jié)合以3D互聯(lián)網(wǎng)為定義的元宇宙主體來談,3D互聯(lián)網(wǎng)里面的人貨場應(yīng)該是交互著對用戶提供服務(wù)。不能缺少對用戶具體使用場景的深刻理解,否則單獨只以數(shù)字人作為產(chǎn)品提供服務(wù),只能是盲人摸象。
李未可科技品牌負責人李恬認為,數(shù)字人要想真正迎來產(chǎn)業(yè)上的爆發(fā),應(yīng)該是消費級的,而不只是一個觀賞性的東西。每個人擁有一個自己的數(shù)字孿生,大家除了在生活中交互之外,還可以在一個虛擬的平行空間里面也用自己的數(shù)字形象去交互。在一個全新的設(shè)備上去社交,要等到AR和VR真正普及之后,但現(xiàn)在并沒有到這個時間。
那么,從當前來看,數(shù)字人的爆發(fā)最有可能先基于AI技術(shù)的發(fā)展,比如UE5和MetaHuman的出現(xiàn),極大降低了實時渲染以及創(chuàng)建高精度數(shù)字人的門檻。讓數(shù)字人在一些交互式的營銷場景以及在數(shù)字員工的場景下,去逐漸取代中之人的方案,現(xiàn)在已經(jīng)有很多的行業(yè)應(yīng)用。
另外,在2D互聯(lián)網(wǎng)向3D互聯(lián)網(wǎng)的變遷過程中,需要虛擬世界跟現(xiàn)實世界之間高度融合,也為數(shù)字人帶來了一個大的天時,在事關(guān)產(chǎn)品體驗、事關(guān)市場供給以及商業(yè)模式下,數(shù)字人要想持續(xù)的熱,這是一場合力。
今年稱得上是一個數(shù)字人的爆發(fā)節(jié)點,無論大廠或小廠,都推出了自己的數(shù)字人,但當前數(shù)字人大多處于L1~L3階段,即依賴算法驅(qū)動肢體、姿態(tài)、口型、表情等,數(shù)字人可執(zhí)行簡單的決策和操作。未來數(shù)字人將實現(xiàn)L4~L5水平,由數(shù)字人自主進行決策、執(zhí)行任務(wù),完全實現(xiàn)智能化交互。
而現(xiàn)在,數(shù)字人背后的企業(yè)要做的不是拉開一場眾多參與者制造的數(shù)字人“競賽”,更應(yīng)該思考如何賦予優(yōu)質(zhì)的內(nèi)容和不斷更新的技術(shù)手段,讓數(shù)字人真正能夠發(fā)揮價值釋放吸引力。