文|定焦 蘇琦
編輯|金玙璠
“起死回生”這件事,過去只在科幻電影里見過,但今年,被“復(fù)活”的案例越來越多。
2月底,知名音樂人包曉柏用AI“復(fù)活”女兒,女兒在媽媽生日時還為她唱了一首生日歌;3月初,商湯年會上,剛?cè)ナ啦痪玫纳虦萍紕?chuàng)始人湯曉鷗以數(shù)字人的形式被“復(fù)活”,還來了一場“湯式風(fēng)格”的演講;近日,還有有網(wǎng)友用AI技術(shù)“復(fù)活”李玟、喬任梁等已逝明星,備受爭議。
和逝去的親人“再見面”,這門此前隱秘小眾的生意,開始頻繁地出現(xiàn)在大眾眼前。但因為用到的技術(shù)不同,價格不同,效果也不同。
花10元,能讓去世親人的照片“眨眼”,背后是簡單的圖像處理技術(shù);花千元,能和沒來及道別就離開的親人視頻通話,用到的是AI換臉變聲技術(shù);花萬元,則可以和電子屏幕里親人的克隆數(shù)字人聊天,數(shù)字人能說會動有表情,真實感更強。
“AI復(fù)活”是一門有強烈需求的生意,醞釀著億級市場,盯上這塊蛋糕的商家卻魚龍混雜。有的下載軟件就能制作“會說話的照片”進行售賣;有的本身是數(shù)字人服務(wù)商,在向B端售賣直播、會展、主持人等數(shù)字人之外,開發(fā)面向C端的數(shù)字人定制APP;還有一批商家,看準了用戶復(fù)活親人、克隆明星的需求,用自研+接入第三方技術(shù)接口的方式,為用戶提供定制化服務(wù)。
“AI復(fù)活”或許在將來會成為一個像拍照一樣常見的服務(wù),但其中也存在數(shù)據(jù)隱私、法律倫理等問題。有業(yè)內(nèi)人士表示,AI換臉變聲技術(shù)的成熟,還會讓一些人借著用戶對親人的想念和信任實施詐騙,“回憶雖好,謹防被‘割’”,他提醒道。
“復(fù)活”親人,需要多少錢?
目前市面上的“AI復(fù)活”產(chǎn)品,根據(jù)成本高低、技術(shù)難易,可以分為三個等級,也對應(yīng)著用戶在AI“復(fù)活”某人之后,與親人“再次相見”的三種方式。
其中最低一檔是照片驅(qū)動,俗稱talking photo(能動的照片),前幾年就有類似的APP火過一陣。
利用深度學(xué)習(xí)、圖像處理等技術(shù),就能讓照片里人物的嘴巴和眼睛動起來;如果讓照片里的人開口說話或唱歌,則要用到對口型(唇語匹配)和語音生成?!斑@些技術(shù)都已經(jīng)成熟且開源,量產(chǎn)之后,單次成本可以壓縮到10元以內(nèi)?!庇?0年AI創(chuàng)業(yè)經(jīng)驗的極鏈科技創(chuàng)始人&總裁董慧智介紹。
第二檔是表情捕捉驅(qū)動的偽直播,給真人模特換上逝者的形象和聲音,進行語音電話或視頻電話等互動,或生成祝福短視頻等。
這里面用到了語音克隆、AI換臉、動捕(表情捕捉)、深度偽造(deepfake)等技術(shù)來變?nèi)俗兟?。董慧智稱,這是一種特別討巧的方式,技術(shù)不新鮮,部分AI詐騙用到的是類似的技術(shù)。動捕器材及人力成本稍高一些,需要數(shù)千元。
這類“AI復(fù)活”的視頻片段在短視頻平臺播放量很高,一般是小輩為家里的老人下訂單,找人用逝者的臉和聲音與老人通話,對老人謊稱逝者在外工作,將“善意的謊言”繼續(xù),老人一般也看不出異樣,只是頻頻抹淚。
孫先生用AI換臉“復(fù)活”父親
第三檔是近期比較火的用數(shù)字人技術(shù)“復(fù)活”親人,因為交付的產(chǎn)品不一樣,成本也有所不同。
一般來說,通過收集人物生前的照片、聲音等數(shù)據(jù)來克隆數(shù)字人的形象和聲音,然后底層搭載大語言模型模擬逝者的思想,可與之進行實時的文字或語音交流。
51數(shù)字人有這項業(yè)務(wù),創(chuàng)始人陳鴻告訴「定焦」,一般產(chǎn)品交付的是一個帶有數(shù)字人的屏幕,大屏有電視那么大,小屏可以是iPad那么大。用戶登錄賬號之后,就能看到逝去親人的數(shù)字人形象,用戶可以通過語音或文字與數(shù)字人互動,產(chǎn)品還可以提供語音電話叫醒服務(wù)。
“定制類的‘復(fù)活親人’業(yè)務(wù),一般要5萬元以上?!标慀櫡Q,因為客戶都是長期付費,后續(xù)還會不斷在細節(jié)上調(diào)優(yōu),也有一些客戶是一個家族湊錢一起做,要求更高。
“AI復(fù)活”對于數(shù)據(jù)質(zhì)量的要求非常高,被克隆者生前的照片、視頻或語音樣本越多、越清晰,數(shù)字人的相似度就越高。再輸入一些個人特征數(shù)據(jù),比興趣愛好,才能模擬其性格。“素材不夠全,成本還會再增加?!标慀櫛硎尽?/p>
因此,精度越高、數(shù)據(jù)越定制化,效果也就越接近真人,價格也更貴。所謂的精度,主要體現(xiàn)在以下幾個方面:人物口型準確度、分辨率清晰度、動作復(fù)雜程度、服飾發(fā)型和表情豐富度、語音(音色、語氣)相似度、是否有電音、是否有抑揚頓挫(多情感)、是否帶交互、交互是否更貼合本人性格等。
放到數(shù)字人領(lǐng)域,需要完美克隆某個人的技術(shù)難度可謂“上不封頂”。商湯科技“復(fù)活”的創(chuàng)始人湯曉鷗,就是一個案例。
商湯科技數(shù)字空間事業(yè)群數(shù)字文娛事業(yè)部總經(jīng)理欒青告訴「定焦」,為了還原湯老師的音容笑貌,用到了不同技術(shù)。整個制作過程中,商湯運用了自研的TTS語音生成大模型,截取了湯老師四、五段不同說話風(fēng)格的聲音作為prompt(提示),總聲音素材不過十幾秒,還原了湯老師的東北口音、音色、常用的語氣詞和語調(diào)以及冷幽默的風(fēng)格。
此外,商湯如影數(shù)字人技術(shù)團隊采用了湯老師之前清晰有效的視頻,用商湯自研的視頻生成技術(shù)進行動作生成和場景過渡,還原走動、喝水等動作,以及微笑的表情。
受限于素材不多,以及算力、成本的考量,目前很多數(shù)字人的視頻和產(chǎn)品看起來還是很“假”?!斑@些都不算是完整地‘復(fù)活’數(shù)字人,技術(shù)和服務(wù)的最高交付上限,也無法滿足人們的最低需求下限”,陳鴻稱。
形象不夠像,就得用情緒價值來補,在數(shù)字人的設(shè)計上加入一些交互細節(jié)。他舉例,比如一個客戶的爺爺最喜歡老四,聊天時爺爺突然會說下個月是老四的生日了,家人要多聚、兄弟要和睦,客戶就會一下子被打動。
總得來說,前兩檔用到的都是相對簡單的圖像處理、換臉和聲音克隆技術(shù),能看到人臉、模仿聲音,但因為成本低,效果粗糙,市面上看到的還原度比較高且能動起來、能對話的都屬于第三檔數(shù)字人,越像越貴。
誰在靠克隆人賺錢?
從過往“復(fù)活親人”的案例可以看到,大部分不像真人且讓人出戲甚至尷尬。而隨著生成式AI技術(shù)的發(fā)展,欒青觀察到,“AI復(fù)活”在技術(shù)上的可行性和真實度上都變得更高,能讓人投入、想哭,使得這類需求被進一步激發(fā)出來。
由此,一條產(chǎn)業(yè)鏈應(yīng)運而生。在這條產(chǎn)業(yè)鏈上,一部分是跟風(fēng)商家,一部分是數(shù)字人服務(wù)商,一部分是AI從業(yè)者,還有一部分是專門做定制AI復(fù)活(復(fù)活或克隆親人、明星、企業(yè)家等)的玩家。
電商平臺上,有不少店鋪提供“AI復(fù)活”服務(wù),讓照片說話的標價多為10元、50元。短視頻平臺上,也有不少人以“AI造夢”“AI療愈”的名義提供類似服務(wù)?!笆召M便宜、效果粗糙,但這是一個長期存在的長尾市場。”董慧智稱。
淘寶上售賣的“讓照片說話”服務(wù)
這類生意也存在灰色空間,有短視頻博主發(fā)布“復(fù)活”李玟、張國榮、喬任梁等已逝名人的視頻,讓他們開口唱歌和說話,雖然稱“旨在致敬和紀念,無商業(yè)目的”,但此類視頻獲得的流量頗高,還有部分會借此引流做“親人復(fù)活”生意。同時,一些提供“AI復(fù)活”服務(wù)的店鋪也注明“只做懷念,人臉識別請繞道”。
目前,技術(shù)成熟的數(shù)字人服務(wù)商和AI從業(yè)者,更多是將商業(yè)模式放在B端,比如AI客服、數(shù)字人直播、AI老師、AI主持人、AI醫(yī)療等,有部分推出了面向C端的類似工具,但并未大規(guī)模宣傳。
有網(wǎng)友曾用大模型初創(chuàng)公司MiniMax的語音大模型,將一段90秒的音頻素材進行語音克隆,并用MiniMax旗下的海螺問問APP生成智能體,與之進行語音對話。硅基智能也有“生命克隆和數(shù)字永生”業(yè)務(wù),其旗下的炎帝大模型基于用戶提供的數(shù)據(jù)克隆出數(shù)字人,用戶則可以通過DUIX APP與數(shù)字人實時交互。
陳鴻和團隊主要做的是高精度定制市場,平均一單5萬元起,圍繞大客戶開發(fā)場景,比如數(shù)字墓地,去墓地緬懷先人時,先人從電子屏里走出來跟大家聊天;比如紀念館智能工程,包括建筑空間搭建等;比如名人“復(fù)活”,用初期古畫“復(fù)活”了朱熹等。
“提供定制服務(wù)的公司,不僅考驗底層技術(shù)能力,更考驗的是渠道深度以及服務(wù)的落地程度,這決定了能否讓用戶真正把數(shù)字人用起來?!标慀櫿J為。
從技術(shù)提供方的角度來看,欒青認為,商湯如影的定位就是通過數(shù)字人技術(shù)賦能各個行業(yè),誰更了解行業(yè),誰更能下場服務(wù)好用戶,誰有更深度的解決方案,誰就能吃到更多蛋糕,“復(fù)活親人不是一個純粹從技術(shù)角度就可以做的生意。”
“AI復(fù)活這門生意更適合中型團隊去做”,董慧智分析,大公司的運營和研發(fā)成本很高,同樣一套技術(shù),他們會優(yōu)先去做標準化、批量化、適用更多場景的B端生意。陳鴻也表示,大廠不愿意做,小團隊沒有實力做,這個市場年收入500萬到1億,是中型團隊的機會”。
目前看來,“AI復(fù)活”看似門檻不高,但真正做好還要面對很多難題。
當前,“AI復(fù)活”還存在技術(shù)受限、素材儲備缺乏、家中有人反對等局限,普及仍有難度。
大部分數(shù)字人需要攻克的技術(shù)難點是,能否做到人機難辨。欒青提到,數(shù)字人在說話、動作、場景銜接等方面已經(jīng)向前進了一步,但在較長時間的交互過程當中,仍然未能達到真正的人機難辨,在情感傳達、理解力、意識等方面還有待完善。
而真的想讓一個人“復(fù)活”,細節(jié)體現(xiàn)在方方面面。陳鴻以一個交互場景舉例說,在與數(shù)字人爺爺對話時,如果用戶問到了數(shù)字人數(shù)據(jù)庫里沒有的信息,比如“誰是尼采”,數(shù)字人就會跳轉(zhuǎn)到大模型,根據(jù)公開的答案回答,雖然可以持續(xù)進行多輪對話,但就會很假,用戶的沉浸感就會被打斷。
“AI復(fù)活”,仍需敬畏
“AI復(fù)活”的需求旺盛,但不是所有人都持支持態(tài)度,背后隱藏的隱私安全和倫理問題也不可忽視。
支持派認可的是其提供的情緒價值,認為“復(fù)活”親人,是對生者的慰藉和對遺憾的滿足,是技術(shù)向善的例子。
質(zhì)疑派則認為人永遠不可能“復(fù)活”,也無法進行“授權(quán)”。即便“AI復(fù)活”得到了親屬的授權(quán)和認可,但逝者本人的意愿無從得知。
“數(shù)字永生沒有那么容易,即使使用大模型,最終復(fù)刻出來的只是一個長著相同面孔的GPT,當他以相似的記憶和遠勝于本人能力和智商跟你對話時,你的感受一定會好嗎?”董慧智反問。
3月16日,針對兒子肖像被短視頻創(chuàng)作者侵權(quán)使用一事,喬任梁父親表示不能接受,感到不舒適,希望對方盡快下架,“他們未征求我們同意,是我侄女刷到視頻發(fā)給我的,這是在揭傷疤?!?/p>
如果克隆數(shù)字人出現(xiàn)問題,對生者可能將帶來二次傷害。太多影視劇作品探討過其中的倫理困境和人性幽微。
2013年播出的《黑鏡》,其中一集講的便是女主“復(fù)活”了在車禍中去世的丈夫,雖然復(fù)制了丈夫的記憶和軀體,卻無法復(fù)制情感和選擇,這位AI丈夫無需睡覺、不會受傷,只會呆板地按照命令行事。女主意識到“你不是你,你只是漣漪”,最終將機器人鎖在閣樓上,卻怨恨自己離不開這虛假的真實。
《黑鏡》截圖 圖源 / 豆瓣用戶Hiro
隨著“AI復(fù)活”產(chǎn)業(yè)鏈的成熟,“復(fù)活親人”“克隆明星”的需求和案例增多,其中涉及的隱私數(shù)據(jù)泄露、AI詐騙等諸多法律風(fēng)險,也受到關(guān)注。
現(xiàn)實生活中,通過AI換臉實施詐騙的案例時有發(fā)生。今年315晚會就曝光了多起利用AI技術(shù)換臉變聲成親人,實施詐騙的案例。此外,假冒名人也是騙局中的重災(zāi)區(qū)。今年3月,劉德華經(jīng)紀公司映藝娛樂通過微博發(fā)布聲明,稱劉德華聲音被克隆偽造,提醒各方人士警惕騙局。
復(fù)刻親人時,為了更高的還原度,用戶只能對技術(shù)提供方保有更大的開放度,這就決定了用戶很難保護自己,一旦遇到騙子,很難界定到底是服務(wù)還是詐騙。
對此,陳鴻建議,想要“AI復(fù)活親人”的用戶,在下單前應(yīng)該簽署合同,規(guī)定數(shù)字人的各項權(quán)利屬于個人,以及提供的個人信息不被泄露。
“AI的發(fā)展是超速的,而安全問題不管是從法律層面、文化層面、公民意識層面還是技術(shù)層面的,都處于滯后狀態(tài)?!倍壑欠Q,最終產(chǎn)業(yè)的發(fā)展還是要靠從業(yè)者自律和監(jiān)管條例的規(guī)范。
欒青稱,行業(yè)的規(guī)范和安全是業(yè)務(wù)發(fā)展的大前提。在中國信通院牽頭下,商湯聯(lián)合多家AI公司共同制定了“可信數(shù)字人”的標準。
不可懷疑的是,人和AI的關(guān)系會在今后變得更加緊密和多元,“AI復(fù)活”這件事,以后有可能會成為一個標準服務(wù),就跟打印一張照片一樣簡單。
隨著技術(shù)進步,“AI復(fù)活”的概念還在繼續(xù)升級,比起一段視頻、一個聊天機器人產(chǎn)品,有人提出了數(shù)字永生、數(shù)字陪伴、隨身親人等概念,“有富翁在自己還活著的時候,就開始著手復(fù)制自己,搭建自己的這種數(shù)字永生庫”,董慧智稱。
2015年,俄羅斯億萬富翁德米特里·伊茨科夫發(fā)出倡議,宣稱到2045年將為所有人打造一副機器人身體來實現(xiàn)永生,這項計劃面臨一定爭議。2022年,伊隆·馬斯克在推特上提到已經(jīng)將自己的大腦上傳到云端,并與自己的虛擬版本交談過,但有人認為這是馬斯克在宣傳自己的腦機接口公司Neuralink。
隨著“AI復(fù)活”褪去神秘感,行業(yè)或許也會開始進入價格內(nèi)卷的時代,如果不想出現(xiàn)“劣幣驅(qū)逐良幣”的情況,行業(yè)還需保持敬畏之心。