文|新莓daybreak 史圣園
編輯|翟文婷
剛剛過去的七月全球人工智能大會,虛擬人的聲量和關(guān)注度遠遠不及大模型,但它并沒有缺席。
大眾對于虛擬人的印象,還停留在一個個越來越漂亮、越來越接近于真人的3D人物模型。企業(yè)卻開始琢磨,怎么用虛擬人幫自己省錢了。
「去年大家的關(guān)注點在于,供應(yīng)商能否幫他們『造一個人』,今年的訴求明顯更現(xiàn)實,都在關(guān)心虛擬人能不能應(yīng)用到企業(yè)運營,真正降本增效?!挂患姨摂M人科技公司產(chǎn)品經(jīng)理David 告訴新莓daybreak。
需求跑在了技術(shù)前面。如同自動化流水線逐步取代車間操作工一樣,企業(yè)采用虛擬人,是想要更加廉價、高效、穩(wěn)定、觸手可及的人力。
過去幾年,虛擬人的形象呈現(xiàn)質(zhì)感不斷提升。超寫實虛擬人,皮膚和毛孔的質(zhì)感甚至可以媲美真人。就仿佛大模型具像化的「肉身」,虛擬人能與真人產(chǎn)生語言之外的更多交互。
大模型的相繼發(fā)布、能力的突飛猛進,也讓大家對虛擬人產(chǎn)生了更多期待。艾媒咨詢的數(shù)據(jù)顯示,2022年我國虛擬人核心市場規(guī)模達 120.8 億元,這個數(shù)字有望三年后翻四倍,達到480.6億元。
虛擬人最大的癥結(jié)之初是,制作成本居高不下,能夠真正落地的性價比之選,怎么看都還是略顯粗糙。
好消息是,隨著AI技術(shù)的進步,虛擬人幾乎可以100%通過AIGC的方法自動生成動作、表情、語言,所需制作時間和成本大幅降低。
生產(chǎn)端持續(xù)降本增效,應(yīng)用端的交互雛形初現(xiàn),樹上已經(jīng)長出青澀的果子。
遺憾之處則是,現(xiàn)階段人類還不能像電影《頭號玩家》中那樣,在虛擬空間和現(xiàn)實空間無縫切換。
技術(shù)從誕生到成熟之間,總有一段無法快進的尷尬期。
還是實用價值贏了
如果站在人類中心的角度,按需求分類,那么虛擬人可以分為功能型和身份型兩種。
功能型的虛擬人,提供的是實用價值:幫人類具體執(zhí)行,比如智能客服、文案撰寫、虛擬人主播等等。
身份型的虛擬人,提供的是情緒價值。它可以是虛擬女友、虛擬伙伴,給予你平凡的陪伴;也可以是歷史名人、娛樂明星的數(shù)字分身,或者誕生于二次元的虛擬IP,讓你獲得近距離追星的快感。
情感需求是客觀存在的,人需要被鼓舞、被理解。在社會日益原子化的今天,這個需求還在不斷增長。
有人在小紅書這樣描述自己與AI聊天的感受:「哪怕心知肚明那只是一段代碼,但還是會因為那些文字心動。AI 可能是虛妄的,但看到那些對話而驚喜的心情是真真切切的。」
AI 伴侶聊天機器人 Character.ai 的增速也是最好的證明。
在這款軟件中,用戶可以與馬斯克、喬布斯、馬里奧等著名人物交談,也可以定制自己的專屬 AI 陪聊。
Character.ai由兩名前谷歌員工創(chuàng)立,還不滿一年。今年三月,這家公司完成了1.5億美元融資,由美國著名風(fēng)投公司a16z(Andreessen Horowitz)領(lǐng)投,估值已經(jīng)達10億美元,絕對的一匹黑馬。
ChatGPT增長趨于停滯的當(dāng)下,Character.ai的訪問量卻持續(xù)攀升。Semrush的數(shù)據(jù)顯示,后者4月訪問量環(huán)比增長近90%,5月環(huán)比增長47%。
真人與AI文本交互的順暢體驗,依賴的是大語言模型的成熟。但虛擬人,不僅包含文本,還包括動作、表情、聲音。想要達到全方位自然相處的境地,還有一段漫長的技術(shù)跋涉。
今年湖南衛(wèi)視跨年晚會現(xiàn)場,虛擬人帶來了名為《制造浪漫》的歌舞表演。有網(wǎng)友表示,童言無忌,自己家3歲孩子的第一反應(yīng)是「好假好丑」。
需求雖然存在,但技術(shù)實現(xiàn)并不盡如人意,這讓面向toC市場的身份型虛擬人,很難賣個好價格。
這點實用型虛擬人更占優(yōu)勢。以同時兼具兩種功能的小冰AI 克隆人為例,提供的實用價值比情緒價值貴 5 倍。
「情感模式」定價是 72 元/年,可實現(xiàn)語音通話、朋友圈互動等功能。而「超級模式」的定價是 360元/年,主要服務(wù)于辦公場景,輔助會議紀(jì)要、文案撰寫等工作。
最重要的是,小冰AI售賣的只是交互界面,沒有具體的虛擬形象。
David對此毫不意外,「從我自己的感受來說,企業(yè)客戶首先關(guān)注的是 ROI 能不能打正,是不是比真人員工成本低。其次,熱點技術(shù)也帶有營銷屬性,比如企業(yè)可以購買個虛擬人,說自己接入了 AIGC,并大力宣傳這樣一個擁抱創(chuàng)新的品牌形象。」
他還補充道,虛擬人技術(shù)供方首先要滿足企業(yè)的現(xiàn)實需求,因為無論是從實際功能,還是營銷功能,企業(yè)都比個人的付費意愿更強烈。
生產(chǎn)端,降本增效
一個值得行業(yè)欣慰的好消息是,AI的技術(shù)進步驅(qū)動了虛擬人生產(chǎn)成本的降低。不論對功能型還是身份型虛擬人,都是利好。
打造一個虛擬人,主要包括建模、驅(qū)動、渲染三個環(huán)節(jié)。AI大大降低了建模和驅(qū)動環(huán)節(jié)的成本。
建模,就是通過手繪、CG建?;蛘逜I的方法,制作出虛擬人的形象。傳統(tǒng)方法,需要設(shè)計師在 3D 軟件中「捏」出一些形象。
以往,產(chǎn)品經(jīng)理和美術(shù)設(shè)計只能通過文字、網(wǎng)絡(luò)圖片參考,溝通形象需求,難免存在信息失真。假如對制作效果不滿意,只能多次返工。
現(xiàn)在不然,Midjourney、Stable Diffusion 等軟件已經(jīng)實現(xiàn)低成本的 2D 圖像生成。
AI基于已有素材和指令,智能生成一個形象,讓每一個需求都有了更具體的對照。也就是說,AI大大降低了制作虛擬人形象的溝通和試錯成本。
3D 建模雖然無法完全由AI完成,但 MetaHuman 等工具則可以通過輸入照片或視頻建立高保真的虛擬人,并直接在 Unreal Engine 中應(yīng)用。
驅(qū)動,是讓虛擬人活動起來的過程。它可以由「中之人」驅(qū)動,也可以由AI驅(qū)動。中之人是指,在虛擬人的外衣下,提供聲音、動作的真人演員。
前者依靠對真人的深度采集完成,包括動作捕捉、面部表情捕捉、音視頻合成等等,再綁定到虛擬人上。后者則是通過深度學(xué)習(xí)、小樣本學(xué)習(xí)、自然語言處理、神經(jīng)網(wǎng)絡(luò)渲染等技術(shù)手段,比如輸入演講稿或者語音,AI模型就能自動輸出肢體動作、面部表情、聲音。
David解釋,他們公司具備動作、表情和聲音模型?!嘎曇羰潜容^簡單的,TTS(Text to Speech)技術(shù)很成熟了。肢體和口唇動作就是一些 STA 模型,我們采集了非常多的動捕數(shù)據(jù),再基于此去生成訓(xùn)練模型?!?/p>
例如,若想在產(chǎn)品解說的視頻中應(yīng)用虛擬人,系統(tǒng)會基于NLP識別用戶輸入的腳本,其中的文字作為輸入給到模型,可以觸發(fā)一些關(guān)鍵的動作。
如果你對這些概念沒有強烈體感,可以通過金錢投入量級更直觀地感受。
「如果是動捕技術(shù),成本是一秒鐘1000塊,這意味著時長一分鐘的視頻,大概需要六萬塊。而通過 AI 的方式去生成,1分鐘只需要30塊錢?!笵avid 介紹,兩種方式的成本相差千倍。
廣發(fā)證券指出,AI 技術(shù)對虛擬人產(chǎn)業(yè)的影響不僅僅是在成本側(cè),同時還帶來了「擬人化」和「專業(yè)化」的可能。大語言模型,以及在基礎(chǔ)模型上用特定的數(shù)據(jù)集進行微調(diào),可以賦予虛擬人個性,也可以適配更多專業(yè)化的場景。
虛擬人直播帶來的啟示
更直觀的功能型虛擬人應(yīng)用,是在直播場景。
5月份,抖音率先確定虛擬人的「合法」身份,允許使用AI輔助創(chuàng)作、不會限制虛擬人直播。近幾個月,抖音新注冊的公會賬號,使用虛擬人直播不再按照錄播對待。
快手雖然沒有官方表態(tài),但沒少給「快手虛擬演播助手(KuaishouVirtual Studio,KVS)」做推廣。KVS 是一款面向內(nèi)容生產(chǎn)者的工具,支持使用虛擬人助播,也支持主播自己化身虛擬形象,進入虛擬場景。
不論站在哪一方,虛擬人都是剛需。
品牌方,有動力替換部分真人主播。一名成熟的主播,培養(yǎng)周期至少在三個月左右。而這一行業(yè)的人員流動性很高,品牌方需要持續(xù)尋找、培訓(xùn)、磨合新的主播。
如果不考慮飯碗被替代,主播也想培訓(xùn)虛擬人幫自己打工。畢竟,帶貨是個體力活兒,日復(fù)一夜每天連播4-6小時,晝夜顛倒、深夜下播是行業(yè)常態(tài),很多人吃不消。
此外,「帶貨過品」的套路成熟,商品的講解流程標(biāo)準(zhǔn)化,虛擬人似乎完全可以勝任。
然而,現(xiàn)實卻沒有那么美好。
虛擬人主播很難讓觀眾產(chǎn)生真正的信任,尤其是涉及到產(chǎn)品測評,美妝、服飾等常見商品的展示,虛擬人顯得有點力不從心。
此前,群眾基礎(chǔ)還不錯的虛擬偶像翎 Ling,就因為口紅測評文案中的「滋潤不干」被網(wǎng)友無情吐槽。當(dāng)呈現(xiàn)效果完全是虛擬的,又如何給到消費者真實客觀的參考呢。
服裝則更是如此。不僅呈現(xiàn)效果缺乏可信性,還要對展示的服裝進行提前建模,運營成本不見得比真人主播低。然而,網(wǎng)友們的評價卻是「這能看出來啥」,「好像就是弄了一個虛擬人形象出來念稿子」。
目前,虛擬主播的功能,更多是基礎(chǔ)性的產(chǎn)品介紹,或者給真人主播做「花瓶」,引起觀眾的好奇。
抖音雖然默許了虛擬人的直播,但同時也表示,流量的分發(fā)取決于「內(nèi)容的質(zhì)量」,不是隨時大開綠燈。這也意味著在高峰時段,「只會念稿」的虛擬人直播,根本不是真人帶貨主播的對手。
從直播這一場景的「虛擬人」打工狀態(tài)管中窺豹,作為用戶,我們不難感受到宣傳中的科幻感與技術(shù)落地的現(xiàn)實之間的差距。
但技術(shù)的進步永遠是這樣,可用性的提升并非一日之功。
AI 技術(shù)的發(fā)展,幫助虛擬人行業(yè)克服了批量化生產(chǎn)的巨大難題,能夠幫助用戶快速、低成本地生成虛擬人,高頻次地生產(chǎn)內(nèi)容,以及擺脫對于真人的依賴。
而對于從業(yè)者和企業(yè)客戶來說,虛擬人與真人的自然交互,近一寸有一寸的歡喜。已經(jīng)有不少商家在深夜時段,采用了虛擬人主播,讓自己的直播間 24 小時不間斷。
畢竟,能持續(xù)向觀眾發(fā)送商品介紹的簡單念白,也聊勝于無。