記者|崔鵬
虛擬數(shù)字人賽道正在成為各大互聯(lián)網公司爭相追趕的新風口。
7月19日,百度數(shù)字人與機器人業(yè)務負責人李士巖接受了界面新聞在內的多家媒體采訪,詳細介紹了百度智能云曦靈平臺和數(shù)字直播人業(yè)務的最新進展。
該平臺于2021年底在百度AI開發(fā)者大會上正式發(fā)布,集數(shù)字人生產、內容創(chuàng)作、業(yè)務配置服務為一體,主要為廣電、互娛、金融、政務、運營商、零售等行業(yè)提供虛擬主持人、虛擬員工、虛擬偶像、品牌代言人的創(chuàng)建與運營服務。
據(jù)李士巖介紹,曦靈目前擁有四個比較成熟的子平臺:數(shù)字人手語平臺、數(shù)字明星運營平臺、數(shù)字人直播平臺以及與交互能力相關的對話配置平臺。通過它們來支撐廣電、互娛、MCN、藝人經紀公司和品牌商等解決方案,支持平臺的商業(yè)化業(yè)務。
百度認為,數(shù)字人產業(yè)目前最大的痛點是鏈條非常長:除了做模型、做綁定、做動力學,還要軟件公司幫忙做集成;如果需要語音則要找做語音的公司,需要視覺再找做視覺的AI公司,最后讓工程師來做集成。
在李士巖看來,百度是國內唯一一家既有視覺能力,又有語音、語義相關包括計算機圖靈學自動生成全鏈路AI能力平臺型的公司,底層全棧AI能力是曦靈的優(yōu)勢;再往上是各個類型人像生產線,以及人設管理平臺。人設生產出來之后,百度再通過交互服務或者生產內容的方式,滿足客戶的需求。
這里還牽扯到數(shù)字人的類型劃分問題,百度將自己的數(shù)字人產品分為服務型跟演藝型兩類。
“在我們來看,數(shù)字人的第一性原理就是兩件事:第一是交互,第二是內容。”李士巖解釋稱,交互就是通過問答等交互手段幫客戶達成目標,內容則主要通過生產短視頻、圖片、直播等形式達成。
這些目標包括降低閑時直播的成本并提高效率,以及在企業(yè)營銷賽道上擴展新的邊界。
因此,百度的數(shù)字人業(yè)務主要聚焦三個賽道:直播帶貨場景,企業(yè)營銷(主要做新客戶的轉化、留存等),以及一些娛樂主播方向的事情。
其中落地最快的當屬直播場景。百度表示,即將在2022年百度世界大會期間推出的數(shù)字人直播制作平臺,能夠實現(xiàn)24小時純AI直播,數(shù)字人可以隨意切換妝發(fā)、場景和造型,大量中小商家通過平臺創(chuàng)設自己的直播帶貨數(shù)字人主播。
直播帶貨雖已成為商家重要的營銷形式,但成本并不低,需要承擔場地租用、雇主播以及整個運營團隊的費用。
百度曾做過一項調研,在一線城市雇一個比較好的主播一般月薪在1萬塊左右,場地費用一年3-4萬,即便拋去運營團隊費用、補光燈和導播臺硬件設備費用等等,每年也至少需要15萬元,對于中小品牌來說負擔比較大。
“有了我們這個直播平臺,一個軟件就能解決問題,成本下降了30%甚至50%以上。”李士巖表示。
不過,做數(shù)字人直播平臺,還要克服很多技術難點。比如在人像維度,百度已經迭代了三個版本,借助于超寫實數(shù)字人SaaS軟件、超智能問答對話系統(tǒng),以及口型合成技術、面部綁定技術以及動作系統(tǒng),包括口型合成準確率目前達到98.5%。
在至關重要的交互能力上,百度將語音、語義和視覺等能力集成到一款產品上,不僅需要底層技術的突破,也需要非常強的工程化能力。
“我們相信經過持續(xù)努力,非常有機會在1-2年內讓數(shù)字人的表現(xiàn)力和交互能力,無限制趨近于真人的水平。”李士巖表示。
官方信息顯示,目前百度智能云曦靈已經擁有幾十家客戶,包括今年冬奧會央視總臺的實時播報手語主播,與國家航天局合作的火星車數(shù)字人祝融號,以及國內首個文博虛擬宣推官“文夭夭”等,都基于該平臺進行設計、研發(fā)、集成和應用。