文|自象限 程心
編輯|羅輯
過去的20年,都沒有2023年如此動蕩。
大模型猶如一顆原子彈投入科技圈,卷起萬里塵沙,傳統(tǒng)模式瞬間被夷為平地,在耀眼的白光和巨大的轟鳴聲之下,大公司、創(chuàng)業(yè)者、投資人甚至是每一位觀眾都在細(xì)微之處,試圖一窺煙塵消散過后的那片新天地。
這是一個值得記錄的時代。所有人都知道,當(dāng)我們從更長的時間線上回望此刻,2023年一定是濃墨重筆的一頁。
因此,年初我們從「ChatGPT啟示錄」一路到「電商啟示錄」,在年尾之際,仍以「2023啟示錄」系列為抓手,將思考在過程中拾起,把經(jīng)驗在結(jié)尾時沉淀,本系列包括『自動駕駛』、『云計算』、『大模型』、『虛擬人』、『電商』、『商業(yè)航天』、『ESG』等多篇深度分析文章。
本篇為「2023啟示錄」系列的第五篇:《虛擬人這一年》,從年初到年尾,虛擬人無論從技術(shù)還是商業(yè)化都在經(jīng)歷過山車一般的跌宕起伏,也是AIGC風(fēng)口下率先落地的產(chǎn)業(yè)之一,站在年終節(jié)點,虛擬人行業(yè)早已翻天覆地。
2023年,大模型“救活”了很多行業(yè),其中最為反轉(zhuǎn)的,就是把虛擬數(shù)字人(以下簡稱虛擬人)從活死人墓里拉了出來。
還沒開年,在2022年火爆一時的元宇宙就已經(jīng)快速遇冷,虛擬人作為元宇宙的遺孀也難逃霜凍的命運,不少虛擬人初創(chuàng)公司開始進(jìn)入融資難、產(chǎn)品無法落地的艱難階段;甚至大廠們,也開始裁撤曾重金打造的等專門為虛擬人制作而生的平臺。
正當(dāng)所有人都以為,虛擬人將經(jīng)歷一段漫長的寒冬時,大模型來了。
大模型來了,首先意味著元宇宙之外,又有了新的概念和故事;但更重要的是,大模型的能力也確實對虛擬人技術(shù)產(chǎn)生了深刻的影響,在元宇宙時代未能解決的成本高昂、制作周期緩慢、門檻過高等問題,也都開始被大模型逐個擊破;同時,大模型讓虛擬人能夠真正開始規(guī)?;涞兀诤线M(jìn)產(chǎn)業(yè),這邁出了產(chǎn)業(yè)鏈成熟的關(guān)鍵一步。
但這一年仍然是混亂的。
年初,起死回生的虛擬人開始瘋狂找落地場景;年中,聞到商機的代理商們,帶著成千上萬虛擬人涌進(jìn)直播間,開始披著技術(shù)的外衣瘋狂割韭菜,這也導(dǎo)致企業(yè)客戶一時間對虛擬人望而卻步。
年底,當(dāng)泡沫逐漸消失、技術(shù)逐漸成熟后,整個市場開始回歸冷靜,產(chǎn)業(yè)鏈開始分化,上中下游的分工慢慢清晰,各行各業(yè)也不再追求形式而開始真正思考,虛擬人究竟能帶來什么?
毫無疑問,虛擬人最重要的場景并不是當(dāng)下所經(jīng)歷的這一切,它是現(xiàn)實世界和虛擬世界的超級入口,是人生游戲中真實的NPC,但想要達(dá)到這個目標(biāo),無論是技術(shù)還是生態(tài),都還尚早。
在年尾之際,我們將從技術(shù)、產(chǎn)品、商業(yè)化三個層面,與多位廠商共同復(fù)盤2023虛擬人這一年。
大模型讓虛擬人“活”了
在大模型到來之前,虛擬人一直避不開成本高昂的問題。
2022年的時候,虛擬人通常都是一對一定制,價格也從上萬元到幾十萬不等,但即便如此,虛擬人的效果也不盡如人意。
某知名酒業(yè)公司品牌負(fù)責(zé)人告訴「自象限」,該公司曾嘗試將虛擬人應(yīng)用在機場大屏的廣告中,但即便找了國內(nèi)知名大廠,并花費近60萬元之后,落地的效果還是“一眼假”。
成本高昂和落地效果不佳的直接原因,自然是技術(shù)不成熟。
在大模型之前,虛擬人的制作大多由真人驅(qū)動,即需要專門的演員戴上設(shè)備,通過動作捕捉技術(shù)進(jìn)行長時間的數(shù)據(jù)采集才能完成3D建模。這種形式一是具有高昂的人力成本,其次則是制作周期漫長。
一位虛擬人從業(yè)者向「自象限」表示,一個虛擬人的數(shù)據(jù)采集需要專門的制作團隊制作數(shù)月才,在這之后,還需要專業(yè)的技術(shù)人員專門進(jìn)行調(diào)優(yōu)。
這自然直接增加了虛擬人的制作成本,某虛擬人廠商告訴我們:“找演員拍攝,幾乎是賣一個賠一個?!?/p>
在真人驅(qū)動之外,也有虛擬人依靠算法驅(qū)動。但這類虛擬人前期需要大量的數(shù)據(jù)訓(xùn)練各類驅(qū)動模型,而且最終效果還要受語音合成、NLP技術(shù)、語音識別、CG渲染等技術(shù)的影響。
這類虛擬人盡管在大模型之前已經(jīng)在某些特定方向有了相對穩(wěn)定的技術(shù),但仍然缺少一個強有力的“大腦”,將各種模塊統(tǒng)一起來,讓虛擬人達(dá)到理想的效果。
除此之外,在大模型之前,靠傳統(tǒng)算法驅(qū)動的虛擬人通常依靠預(yù)設(shè)的參數(shù)和有限的模型進(jìn)行訓(xùn)練,但在大模型之后,大模型的生成能力則幾乎讓虛擬人擁有了無限的訓(xùn)練參數(shù)。
▲圖源:中航證券研究所
如今,大模型已經(jīng)作為一種生產(chǎn)能力滲入到整個虛擬人制作的產(chǎn)業(yè)鏈中,這直接推動了虛擬人制作成本的大幅下降,從之前的十萬級下降到千元左右。制作周期也從之前的動輒幾個月,縮短到小時級別。
國內(nèi)最早一批布局AI數(shù)字人的「硅基智能」告訴「自象限」:“從上線起,硅基的數(shù)字人形象克隆產(chǎn)品統(tǒng)一定價為8000元,通過標(biāo)準(zhǔn)化的價格和服務(wù)來擴大市場份額,目前市場上的售價參差不齊,從幾百到幾千不等,新的一年,我們在思考把8000元的門檻砍掉,進(jìn)一步降低成本,走全新的商業(yè)模式?!?/p>
降本增效,是大模型帶來的第一層改變。大模型技術(shù)不僅直接降低了虛擬人的制作難度,更讓虛擬人看上去更像人。
比如,大模型改變了過去虛擬人3D建模依靠CG技術(shù)的傳統(tǒng)方法,轉(zhuǎn)而使用視頻大模型的制作工具,通過算法高效生成3D模型,這讓虛擬人的面部細(xì)節(jié)更加逼真,面部表情和唇形的同步效果也有所提高,讓虛擬人在說話時看起來更自然。
除此之外,大模型還在交互方面提高虛擬人的能力,讓虛擬人可以從單項輸出到與人進(jìn)行事實互動。
根據(jù) IDC 咨詢,根據(jù)虛擬人的自動化水平,可分為 L1-L5 階段。如下圖所示,目前我們正處于L3-L4的中間階段,在直播間或者虛擬人互動的設(shè)備中,用戶通過文字就能與虛擬人進(jìn)行實時交流和對話,以用來介紹產(chǎn)品、替用戶解決問題等等。
▲圖源:IDC報告截圖
一位2D虛擬人廠商同「自象限」提到:“目前相對智能化的虛擬人已能實現(xiàn)直播互動。這背后的技術(shù)原理在于企業(yè)事先建立的一個模板庫或知識庫,一旦在直播中觸發(fā)了相應(yīng)的關(guān)鍵詞,虛擬人就能實時調(diào)取里面的內(nèi)容進(jìn)行回答?!?/p>
但從效果來看,這項技術(shù)還不夠成熟,有用戶反饋到:“在直播間問的問題,過十分鐘虛擬人才會回復(fù),早就沒耐心等在直播間了?!?/p>
最后,AIGC的生產(chǎn)能力,也讓虛擬人開始有了“靈魂”。
商湯智能研究院梳理了AI 數(shù)字虛擬人的三大特征,包括多模態(tài)交互、深度學(xué)習(xí)能力和AIGC 生產(chǎn)力。
相較早期虛擬人制作對人工依賴較高,AIGC 大幅提升了 AI 虛擬人的制作效率,并降低了制作門檻;大模型讓虛擬人能夠深度學(xué)習(xí)更多知識和技能,并識別包括圖片、視頻、音頻在內(nèi)的多模態(tài)內(nèi)容,為虛擬人與真人自然交互的實現(xiàn)提供了基礎(chǔ)。
▲圖為自象限原創(chuàng),轉(zhuǎn)載請注明出處
很大程度上,大模型解決了虛擬人在解決了虛擬人在自然語言理解和內(nèi)容輸出上的能力,比如在直播場景下,虛擬人可以依靠大模型的生成能力很好地完成在口播內(nèi)容、腳本甚至劇本等方面的劇本撰寫工作,這很大程度降低了產(chǎn)業(yè)鏈的門檻,讓虛擬人不只是一個形象,更成為一個生產(chǎn)工具。
目前,部分虛擬人廠商已經(jīng)開始向整個生成鏈條延伸,比如“一鍵生成視頻文案”、“一鍵生成講解視頻素材”、“多語言快速翻譯”等等,從虛擬人的技術(shù)提供商轉(zhuǎn)變?yōu)楦姓w性的解決方案提供商。
微軟小冰CEO李笛更是提出,虛擬人未來是混合模型。
「自象限」認(rèn)為,下一階段虛擬人將進(jìn)入“虛擬人+”的階段,虛擬人+RPA在企業(yè)內(nèi)部打造數(shù)字員工;虛擬人+AI Agent,在C端打造陪伴型機器人;虛擬人+AR/VR,在3D空間打造可見的游戲NPC;虛擬人+具身智能,讓人型機器人有了靈魂。
若將多種技術(shù)進(jìn)行全面融合,虛擬人才真的能夠成為“入口級應(yīng)用”。屆時,比拼的賽點將是虛擬人的開放程度、生態(tài)建設(shè)、場景拓展等一系列綜合能力。
虛擬人,走向2D還是3D?
隨著大模型帶動的虛擬人爆發(fā),市面上虛擬人類型也逐漸豐富。從2D到3D,從真人到算法,已經(jīng)亂花漸欲迷人眼。這背后的本質(zhì),其實是市場對虛擬人的分類標(biāo)準(zhǔn)不同。
但「自象限」整理了一些常用的標(biāo)準(zhǔn)和分類后發(fā)現(xiàn),虛擬人在產(chǎn)品落地方面其實更多是依靠視覺的不同來進(jìn)行分類,即2D虛擬人和3D虛擬人。而從技術(shù)、產(chǎn)業(yè)鏈和應(yīng)用場景來看,2D虛擬人和3D虛擬人已經(jīng)走出了兩條涇渭分明的道路。
▲圖為自象限原創(chuàng),轉(zhuǎn)載請注明出處
本質(zhì)上,虛擬人的最終目標(biāo)無限地接近于真人的形象,因為只有這樣,虛擬人才能帶給用戶和人一樣的感受和互動體驗。拿這個標(biāo)準(zhǔn)來看,3D虛擬人更契合這個目標(biāo),也是未來應(yīng)用方向。
但作為對比,2D虛擬人的制作成本更低,應(yīng)用落地更簡單,能夠在短時間內(nèi)帶來大規(guī)模商用。
從技術(shù)角度來看,兩種虛擬人背后搭建的技術(shù)架構(gòu)也完全不同。
2D虛擬人更關(guān)注面部表情、口型說話的語氣;3D虛擬人則更關(guān)注整體的協(xié)調(diào)性,說話時肢體的動作,以及虛擬人與空間的幾何關(guān)系等等。
具體而言,2D虛擬人可使用圖片處理器快速生成,3D虛擬人則需要建模、動畫、渲染等環(huán)節(jié);2D虛擬人需要的數(shù)據(jù)量較小,對算力要求不高,3D虛擬人則剛好相反;2D虛擬人對精細(xì)度要求不高,但3D虛擬人卻要達(dá)到高仿真的擬人效果。
技術(shù)上的差異導(dǎo)致3D虛擬人的制作成本要遠(yuǎn)超2D虛擬人。
彼時大熱的3D虛擬人柳夜熙的制作投入高達(dá)百萬元。所以在上一波元宇宙潮中,3D虛擬人作為主角博得了熱度,但離飛入尋常百姓家還差了一大截,因此2D虛擬人抓住機會,恰好填補上這一需求的空白。
根據(jù)市場調(diào)研,目前,百度、商湯、魔琺科技等公司涉足3D虛擬人領(lǐng)域;騰訊、京東、快手、即構(gòu)科技、萬興科技、一覽科技在2D虛擬人方向更新產(chǎn)品和服務(wù),還有以方糖星球、真視通、易觀國際、天璣科技為代表的企業(yè)以虛擬空間為切入,完善虛擬人配套設(shè)施。
深耕3D虛擬人的廠商魔琺科技告訴「自象限」,魔琺科技全棧技術(shù)主要包含四大維度,分別是AIGC 3D寫實形象,AIGC 3D動畫、AIGC 聲音和AIGC 文本,在有言產(chǎn)品中,還涉及AIGC 3D運鏡和AIGC燈光等技術(shù),是一個極為復(fù)雜的綜合考量。
而針對3D虛擬人的難點,魔琺坦言當(dāng)下生成技術(shù)在逐步攻克中,但高質(zhì)量的3D數(shù)據(jù),是行業(yè)非常稀缺的資源,這也是3D虛擬人的壁壘之一。
AIGC文生視頻需要依托高質(zhì)量的3D訓(xùn)練數(shù)據(jù),才能生成穩(wěn)定有幾何關(guān)系和空間關(guān)系的視頻,2D虛擬人廠商需要從0到1構(gòu)建3D數(shù)據(jù)幾乎不太可能。
魔琺科技認(rèn)為:“3D虛擬人是一種人物形態(tài)載體,能夠使用起來,就需要以產(chǎn)品化形態(tài)落地,去解決企業(yè)實際問題?!?/p>
這意味著,虛擬人廠商不僅需要提供3D虛擬人產(chǎn)品,更需要與企業(yè)的業(yè)務(wù)場景相結(jié)合,給企業(yè)一定的自由度,打造3D虛擬人的制作平臺。
目前魔琺科技打造了端到端的超寫實3D虛擬人工業(yè)化產(chǎn)線及“3D虛擬人的AIGC平臺—星云平臺”,為企業(yè)提供系列生成工具,企業(yè)根據(jù)自身需求,能夠更加靈活的調(diào)整虛擬人的細(xì)節(jié)、結(jié)構(gòu)和適配的使用場景。
商湯也基于日日新大模型,打造了如影虛擬人制作平臺,基于在視覺、語音領(lǐng)域積累的3萬個算法模型,虛擬人能快速識別、反應(yīng),與用戶建立起對話關(guān)系。并且,事后,虛擬人也不會“失憶”,繼續(xù)學(xué)習(xí)迭代。
相比之下,2D虛擬人的制作流程就簡單的多。某2D虛擬人廠商對我們介紹到:“目前2D虛擬人制作有兩種方式,一種是請真人錄制,然后幫其定制形象。一種是從用戶提供的視頻中提取形象,再用到各種場景中。市面上2D虛擬人定制工具的邏輯基本一致:輸入文案素材,就能生成一個簡單的虛擬人形象?!?/p>
大模型對2D虛擬人提效效果顯著,AI可將傳統(tǒng)視頻制作流程中人工處理時間大幅減少90%,模型訓(xùn)練時間減少60%,只需48小時以內(nèi)即能完成各類定制數(shù)字人的訓(xùn)練工作。目前文生AI數(shù)字人視頻的時間在數(shù)分鐘左右。伴隨技術(shù)的進(jìn)步,未來文生視頻的效率還將持續(xù)提升。
大模型把虛擬人制作的成本打下來了,也把虛擬人的價格打下來了。
因為便宜,2D虛擬人開始鋪天蓋地的走進(jìn)直播間、短視頻,不少大V開始有了數(shù)字分身,劉潤、周鴻祎相繼亮相了自己虛擬人分身,它們在直播間里7×24小時、全年無休地介紹著產(chǎn)品,無論大企業(yè)還是中小商家,對虛擬人的熱情空前高漲,而這也吸引了大量魚龍混雜的代理商和套殼廠商,沒有實質(zhì)技術(shù),只是打著科技的幌子招搖撞騙。
今年7月-8月,小紅書、閑魚、淘寶、抖音等平臺都開始陸續(xù)出現(xiàn)了“99元”、“299元”、“499元”的虛擬人,據(jù)「自象限」調(diào)查,這些賣家往往通過各類成功案例吸引用戶下單,但下單后不管使用不包售后,通過一個有一個“圈套”,只為“賣”,不為“用”,虛擬人的熱度就這樣被炒得虛高。圖省事的買家以為自己趕上了風(fēng)口,結(jié)果吃了大虧;想撈快錢的賣家趁機而入,順利收割了第一批韭菜。
一位品牌商家對「自象限」講到:“虛擬人最火的時候,采買了虛擬人主播,前幾次直播效果都不錯,前三個月可以盈虧可以勉強打平,今年七八月份光電費就一萬多,加上給虛擬人主播投流,虧了10萬左右?!?/p>
行業(yè)魚龍混雜,讓很多原本想嘗試的企業(yè)望而卻步。不過,這樣的情況到了年底,通過監(jiān)管政策的密集下發(fā)和平臺收緊了虛擬人直播的條件,混亂的現(xiàn)象暫時得到了控制,行業(yè)又重回冷靜期,開始真正思考,虛擬人,究竟能做什么?
爆火虛擬人,花式商業(yè)化
事實上,直到今年,數(shù)字人才真正步入了商業(yè)化的正軌。
硅基智能創(chuàng)始人兼CEO司馬華鵬曾在采訪中提到“2019年推數(shù)字人,免費都沒人用。”而到今年,我們也感受了一些新的變化,“去年我們克隆了十幾萬數(shù)字人,有些客戶不愿意公開講自己在用AI協(xié)助工作,但今年大家都愿意說了?!?/p>
“ChatGPT出現(xiàn)之后,整個行業(yè)的心態(tài)發(fā)生了非常大的變化?!?/p>
2023年,虛擬人的商業(yè)模式分化出了3種較為成熟的模式:
第一種是元宇宙時期為主的IP型,產(chǎn)品定位多位偶像、娛樂、科研教育等方面。以此衍生出了虛擬偶像、數(shù)字航天員、品牌代言人等一系列角色,將偶像身份具象化,通過IP打造和運營,如柳葉熙、洛天依等;
第二種則是功能型虛擬人,也叫服務(wù)型虛擬人,以數(shù)字員工為代表,虛擬主播、數(shù)字客服等在金融、文旅、零售、直播等領(lǐng)域,與人的工作相輔助,降低企業(yè)成本,提供自動化、標(biāo)準(zhǔn)化和智能化的服務(wù);
第三種則是正在探索的虛擬分身(Avatar),也稱虛擬空間身份代理,為玩家打造特定的游戲身份、虛擬演唱會觀眾、永生形象等,多應(yīng)用在游戲、VR、元宇宙中,是虛擬空間和現(xiàn)實空間的交互入口,玩家不僅能擁有虛擬形象,更能推動虛擬內(nèi)容的生產(chǎn),也是虛擬人最終要達(dá)成的狀態(tài)。
根據(jù)沙利文、頭豹研究院等數(shù)據(jù)顯示,2023年多個品牌都在探索如何用虛擬人產(chǎn)生更大的價值,其中諸如虛擬歌手、明星克隆、消費品牌的虛擬代言人,迅速風(fēng)靡網(wǎng)絡(luò)。
郭德綱說英語、Taylor swift講四川話,AI“復(fù)活”了張國榮和梅艷芳,也替一眾歌星開啟了線上演唱會。短視頻的玩梗和傳播,加速了虛擬人進(jìn)入到大眾的視野中,而C端的熱情同時也映照著B端的需求。
年初,抖音大V劉潤打起了數(shù)字人短視頻的第一槍;年尾,坐擁1200萬粉絲的科普博主嚴(yán)伯鈞開始在多個社交媒體平臺發(fā)布由硅基智能制作的數(shù)字人短視頻。
嚴(yán)伯鈞在接受采訪時也講到:“當(dāng)我第一次發(fā)布AI制作的內(nèi)容時,就有觀眾敏銳地指出:‘你為什么不眨眼?’事實上,從動作、表情、語言到思想,AI正在不斷地學(xué)習(xí)和模仿我的每一個特征,這是一個持續(xù)進(jìn)化的過程?!?/p>
▲圖源:受訪企業(yè)提供
據(jù)了解,2023年8月,公司聯(lián)合明星MCN公司謙尋成立了合資公司謙語智能,發(fā)布了AI數(shù)字人直播解決方案,為謙尋旗下主播打造數(shù)字分身,在主播直播的8小時外,替主播繼續(xù)直播,延長直播時長。
而魔琺科技則更注重虛擬人本身的能力,某醫(yī)療機構(gòu)營銷中心,每月需要數(shù)千條話題、熱點、科普類視頻用于運營各段視頻平臺及營銷投放,現(xiàn)有幾十人的團隊每月產(chǎn)能幾百條。
通過使用魔琺有言一站式AIGC視頻創(chuàng)作平臺,可以將圖文內(nèi)容一鍵生成3D視頻,免去了視頻拍攝,制作等諸多環(huán)節(jié),使用有言后,該營銷中心解決了產(chǎn)能不足的問題,實現(xiàn)獨立完成全平臺視頻矩陣運營。還能創(chuàng)作大量優(yōu)質(zhì)的科普內(nèi)容用于投放獲客,實現(xiàn)了優(yōu)質(zhì)醫(yī)療科普視頻的快速、規(guī)?;牧慨a(chǎn)。不僅團隊產(chǎn)能大幅提升,獲客ROI也隨之提升。
更重要的是,2023年,虛擬人開始走向千行百業(yè),從影視、娛樂等領(lǐng)域走向金融、文旅、教育、政企等數(shù)字化深水區(qū)。
▲圖源:騰訊《數(shù)字人產(chǎn)業(yè)發(fā)展趨勢報告》
舉幾個例子,在虛擬人+教育領(lǐng)域,網(wǎng)易有道發(fā)布AI口語老師,該老師為學(xué)生提供開放式的聊天場景,更符合真實的口語聯(lián)系環(huán)境,并在對話結(jié)束后快速生成結(jié)果報告;科大訊飛發(fā)布訊飛星火認(rèn)知大模型,涵蓋了批改語文和英語作業(yè),模擬口語老師實景對話等。
在虛擬人+政務(wù)方面,目前廈門、深圳、江西等地方紛紛引入數(shù)字員工,工作內(nèi)容包括多語種的政策解讀、為群眾提供“邊聊邊辦”的數(shù)字政務(wù)服務(wù),通過虛擬人智能推送服務(wù)入口,完成業(yè)務(wù)咨詢、資訊推送、服務(wù)引導(dǎo)等等政務(wù)服務(wù)。
2024年,有部分廠商也在逐步試水?dāng)?shù)字人+跨境電商。硅基智能告訴我們:“由于海外的多語種對短視頻和直播有很大的門檻,我們開發(fā)了硅語翻譯小程序和專業(yè)版的Anylang,可以通過實時翻譯結(jié)合數(shù)字人解決這個問題,幫助跨境電商企業(yè)一站式出海。”
總的來說,在經(jīng)歷了2023年的動蕩期之后,虛擬人無論是的技術(shù)、產(chǎn)品還是行業(yè)格局,都走向了一個新的節(jié)點,2024年,隨著多模態(tài)大模型的成熟,虛擬人可能會再邁進(jìn)一個臺階,同時在千行百業(yè)中的逐步深入,也將打開更多數(shù)字化的大門。
* 文中配圖來源于網(wǎng)絡(luò)