久久97超人人超人人超碰国产,久久精品国产再热一区二区

文|智東西心緣

編輯|漠影

寫在前面：元宇宙、虛擬數字人概念火爆的2021，高質量訓練數據資源正成為雄心勃勃的AI企業(yè)們解鎖更強智能的關鍵燃料，通過對話國內唯一A股上市數據服務商海天瑞聲，我們試圖探討隱藏于這場新興技術浪潮幕后的基石角色，如何運用技術解決智能化升級過程中的核心痛點。

2022年，再不關注虛擬數字人，你就落伍啦！

在剛剛過去的一年，AI虛擬主播、虛擬學生、虛擬員工輪番上崗，成為元宇宙與人工智能兩大領域最熱門的技術賽道之一。

有些虛擬數字人已經表現得靈性十足，不僅發(fā)音標準自然、身體動作流暢，就連眨眼頻率、口型與聲音的匹配等細節(jié)都惟妙惟肖。

這些火遍大江南北的特殊生命體，通過越來越多元的形象定制、舒適的交互體驗，逐漸轉變?yōu)閾碛懈咏鎸嵢祟愔巧毯颓楦械男滦蜕鐣巧?/p>

而「多模態(tài)技術」，正是打破單一感官的藩籬，讓AI虛擬形象越來越像人類的秘密武器。

01.破圈而來，“完美”虛擬人，離不開的多模態(tài)

數據，是將真實世界與虛擬世界連接的橋梁。

在現實世界中，數據天然以「多模態(tài)」的形式存在，人類通過綜合運用視覺、聽覺、觸覺、嗅覺等多種感官，來接觸和理解大千世界。

為了探索實現通用人工智能（AGI）的路徑，人工智能（AI）從單模態(tài)走向多模態(tài)已是大勢所趨。

以前，Siri等語音助手只有聲音沒有臉，搜索只能依靠輸入文字，機器看不懂照片的深層含義。

如今，借助多模態(tài)技術，AI實現了圖像、視頻、音頻、語義文本等多維度資源的融合互補，不僅決策更加精準，還在行為和智商上更接近人類。

新冠疫情亦催化了多模態(tài)技術的落地進程。在隱私安全保護重視程度日益加強的趨勢下，多模態(tài)生物識別憑借更高的準確率和安全性，正取代基于指紋、人臉等單一生物特征的身份識別方法。

而深藏多種黑科技的AI虛擬主播，亦是基于多模態(tài)技術的快速演進，成為感知智能邁向認知智能階段的重要探索。

它們的精致面容、流暢表達、優(yōu)美體態(tài)，離不開微表情追蹤、語音識別、語音合成、自然語言理解、動作捕捉等豐富技術的支撐。

▲虛擬數字人技術架構（來源：《2020年虛擬數字人發(fā)展白皮書》）

其中，AI手語主播要解決的技術難點尤其復雜。為了照顧到聽障人士的需求，它需要具備實時將中文、英文等語音“翻譯”成連貫手語的能力。

但手語有一套獨特的語法體系，如果來一段央視押韻狂魔朱廣權的段子“冷空氣非常強，但他強任他強，清風拂山崗，他橫任他橫，秋褲保健康”，那就極度考驗AI手語主播的理解和翻譯水準了。

要做到實時精確演示手語，AI主播需先將語音轉化成文字，再將健聽人士的文本語序轉化成手語語序，最后基于手語數據集進行手語合成，將相同的信息以視覺的形式傳遞給聽障人士。

在此過程中，獲得符合需求的訓練數據成為了最具挑戰(zhàn)性的問題之一。

這是因為，作為一種視覺語言，手語語言遠比語音語言模態(tài)復雜，既包含手型、手部位置等手控信息，又包含表情、口動、體態(tài)等非手控信息。

如果從2D視頻來采集手語運動過程中的數據，則不可避免會遇到動作被遮擋、人臉五官各區(qū)域區(qū)分不明顯、空間深度信息缺失等問題。

綜合看來，通過專業(yè)設備采集的3D多模態(tài)數據，已經成為優(yōu)化特定垂直場景AI虛擬數字人的智能化水平中，為數不多的解決方案之一。

怎樣獲得高品質的多模態(tài)訓練數據庫？AI基礎數據服務商的商業(yè)價值開始日益凸顯。

02.優(yōu)質算法“殺手锏”，高質量數據背后的技術試煉

數據、算法、算力被并稱為「AI三要素」，數據質量的高低，往往決定AI算法模型的性能上限。

隨著AI應用逐漸普及，位于基礎設施層的AI數據服務行業(yè)正發(fā)展地風生水起。根據知名市研機構IDC報告，到2025年，中國AI數據采標服務市場規(guī)模預計將增至123.4億元。

▲2020-2025年中國AI基礎數據服務市場規(guī)模預測（來源：IDC中國）

但如果你認為AI基礎數據服務是個純人工作坊，那你就太小瞧這個行業(yè)的技術含量了。

尤其是多模態(tài)技術爆發(fā)以來，相應的對多模態(tài)數據需求的增長，逐步暴露了“作坊式”數據采標團隊“人海”戰(zhàn)術的短板，整個數據市場正向滿足客戶長尾需求演進，對服務商技術屬性的要求一再加碼。

如何制定與算法匹配的數據方案？如何同步采集不同模態(tài)的數據？如何處理丟失的數據？如何保證不同模態(tài)數據的精準對齊？這些都極度考驗AI數據服務商的技術能力。

以獲評國家工信部新一代人工智能產業(yè)創(chuàng)新重點任務揭榜優(yōu)勝單位、國家專精特新“小巨人”企業(yè)、國家重點軟件企業(yè)的海天瑞聲為例，這家企業(yè)在中國AI基礎數據采標服務市場中排名前列，也是A股唯一的AI數據服務上市公司，其多模態(tài)訓練數據解決方案最近獲得了智東西2021年度AI生產力創(chuàng)新獎。

根據其IPO文件，AI數據服務的核心技術可分為三個層次：訓練數據生產（包括設計、采集、加工、質檢），平臺工具（一體化數據處理平臺）以及基礎研究（語音識別、語音合成、計算機視覺、訓練數據集設計技術等）。

其中，在訓練數據生產層，多語種多模態(tài)訓練數據設計技術、采集及標注技術是高質量訓練數據的生產基礎。

首先在設計階段，為了滿足AI算法的需求，AI數據服務商需深入理解客戶算法和應用場景，設計與之最優(yōu)匹配的多模態(tài)訓練數據結構，并制定合理的原料數據采集方案。

通過設計多設備采集方案，以便同時獲取人發(fā)出的語音、視頻畫面、精細唇部動作等不同模態(tài)的信息，便于客戶匹配自身算法模型框架，實現視覺、聽覺等融合的多維度交互。整個過程非?？简濧I數據服務商的技術儲備和工程能力。

其次，在實際的采集環(huán)節(jié)中，數據損耗是常事，且造成損耗的原因迥異，而有經驗的AI數據服務商能用技術快速找出解法。

我們繼續(xù)以AI手語合成主播為例，采集手語數據會用到裝有傳感器的手套，這些手套由于并非專為手語而設計，因此在采集過程中難免會出現數據丟失的問題，一個動作很可能要做上百幀的數據修復，耗時耗力。

發(fā)現這一問題后，海天瑞聲技術研發(fā)團隊迅速啟動應對方案，歷經半個月研發(fā)出一款與硬件采集設備相匹配的自動導出、修復工具，極大提升了數據的處理效率。

修復好數據，還要應對「精細對齊」的挑戰(zhàn)。

在虛擬數字人、智能座艙等場景中，越來越多應用開始將語音識別和計算機視覺結合，以提高理解人類意圖的準確率。

像這樣需用多個攝像頭、傳感器等設備來采集數據的應用，又帶來新的難題——如何將不同設備記錄的影像、聲音等數據，實現同步標注對齊？

▲不同通道錄制的語音數據不對齊情況示例

大規(guī)模標注數據本來就是AI模型進一步優(yōu)化性能的瓶頸，而多模態(tài)數據不僅標注工作量是單模態(tài)的數倍，還要解決多設備采集數據同步難的問題，這會進一步增加后續(xù)數據加工難度。

對此，海天瑞聲的解決思路是自研多通道采集工具和數據同步技術，多通道采集工具支持4路甚至更多語音數據同時錄入、自動對齊整合，數據同步技術可實現多通道采集原料數據的自動對齊，并做到多音頻文件起始點自動對齊誤差小于1毫秒，大幅提升訓練數據生產效率和質量。

借助數據同步技術，唇形動作與聲音的對齊能精確到毫秒級，這也是可以避免虛擬數字人說話時音畫不同步、對不上口型等尷尬局面背后的重要因素之一。

03.為更強智能輸送燃料，多模態(tài)數據強勢崛起

哪個AI應用不想實現更高的準確率、更自然貼心的交互能力呢？在更強智能需求的拉動下，基于多模態(tài)數據的AI算法模型日漸成為主流。

▲微軟多模態(tài)預訓練模型「女媧」可根據文本內容生成相應視頻

例如公安、金融等場景的身份鑒定，電商場景下的智能客服交互，未來自動駕駛場景的艙內艙外交互等等，數據準確率越高，有助于抵御越多的安全風險。而多模態(tài)生物識別不僅有助于保護信息安全，還能應對單一模態(tài)無法有效識別的戴口罩、手指磨繭、整容等特殊情況。

▲單一生物識別技術的特點（來源：零壹智庫、東方財富證券研究所）

可以看到，如今AI垂直應用場景呈現碎片化特征，對多模態(tài)數據的需求更加復雜和長尾化。

這些新業(yè)務場景需求的變化，更為考驗AI數據服務商處理復雜交叉業(yè)務場景數據的綜合能力。

因此AI數據服務商必須具備與客戶算法團隊平行溝通的技術儲備，理解客戶希望用數據解決什么問題、設計什么結構的模型，才能用最小代價，給出高效高質的數據集解決方案，保證客戶算法取得盡可能好的落地效果。

在這樣的趨勢下，海天瑞聲等頭部品牌數據服務商的資源優(yōu)勢將被進一步放大。

從海天瑞聲的IPO文件可以看到，這家公司已經積累了近千個自有知識產權的訓練數據產品、服務微軟、阿里巴巴、騰訊、百度、三星、字節(jié)跳動、亞馬遜、科大訊飛、商湯科技、中國科學院、清華大學等超過500家國內外客戶，并持有信息安全認證證書ISO/IEC 27701及管理體系認證證書ISO/IEC 27001。

▲2018-2020年海天瑞聲前五大客戶情況（根據IPO文件整理）

過去三年，海天瑞聲的前五大客戶呈現高復購率，足見其產品的高粘性。

無論是知名科技公司的背書，還是經年累月沉淀的多語種語言學家團隊資源和穩(wěn)定合作的供應商、客戶等上下游資源，都使得兼具技術壁壘與業(yè)務經驗的品牌數據服務商，更易成為確保多模態(tài)數據高效高質交付的首選。

04.結語：多模態(tài)終將主導智能產業(yè)未來

AI算法要想高質量，多模態(tài)數據得跟得上。

過去一年，應用場景的創(chuàng)新和機器學習算法的流行繼續(xù)帶動訓練數據需求爆發(fā)式增長。

在多模態(tài)大模型、虛擬數字人等熱門技術方向的驅動下，持續(xù)探索更強智能的AI應用，對高質量多模態(tài)訓練數據資產的需求愈發(fā)迫切。

當前多模態(tài)技術仍處于起步階段，多維度信息的轉化和融合尚不成熟，在真實場景下的泛化能力較為受限，距離實現人類級別的多模態(tài)感知能力還有較長的路要走。

這需要研發(fā)多模態(tài)AI應用的企業(yè)或研究機構與AI基礎數據服務商長期磨合，摸索出更加符合人類認知習慣的前沿多模態(tài)技術，幫助AI全面理解真實世界，最終更好地服務于未來的人類社會。

文|智東西心緣

編輯|漠影

2022年，再不關注虛擬數字人，你就落伍啦！

在剛剛過去的一年，AI虛擬主播、虛擬學生、虛擬員工輪番上崗，成為元宇宙與人工智能兩大領域最熱門的技術賽道之一。

有些虛擬數字人已經表現得靈性十足，不僅發(fā)音標準自然、身體動作流暢，就連眨眼頻率、口型與聲音的匹配等細節(jié)都惟妙惟肖。

這些火遍大江南北的特殊生命體，通過越來越多元的形象定制、舒適的交互體驗，逐漸轉變?yōu)閾碛懈咏鎸嵢祟愔巧毯颓楦械男滦蜕鐣巧?/p>

而「多模態(tài)技術」，正是打破單一感官的藩籬，讓AI虛擬形象越來越像人類的秘密武器。

01.破圈而來，“完美”虛擬人，離不開的多模態(tài)

數據，是將真實世界與虛擬世界連接的橋梁。

在現實世界中，數據天然以「多模態(tài)」的形式存在，人類通過綜合運用視覺、聽覺、觸覺、嗅覺等多種感官，來接觸和理解大千世界。

為了探索實現通用人工智能（AGI）的路徑，人工智能（AI）從單模態(tài)走向多模態(tài)已是大勢所趨。

以前，Siri等語音助手只有聲音沒有臉，搜索只能依靠輸入文字，機器看不懂照片的深層含義。

如今，借助多模態(tài)技術，AI實現了圖像、視頻、音頻、語義文本等多維度資源的融合互補，不僅決策更加精準，還在行為和智商上更接近人類。

而深藏多種黑科技的AI虛擬主播，亦是基于多模態(tài)技術的快速演進，成為感知智能邁向認知智能階段的重要探索。

它們的精致面容、流暢表達、優(yōu)美體態(tài)，離不開微表情追蹤、語音識別、語音合成、自然語言理解、動作捕捉等豐富技術的支撐。

▲虛擬數字人技術架構（來源：《2020年虛擬數字人發(fā)展白皮書》）

其中，AI手語主播要解決的技術難點尤其復雜。為了照顧到聽障人士的需求，它需要具備實時將中文、英文等語音“翻譯”成連貫手語的能力。

在此過程中，獲得符合需求的訓練數據成為了最具挑戰(zhàn)性的問題之一。

如果從2D視頻來采集手語運動過程中的數據，則不可避免會遇到動作被遮擋、人臉五官各區(qū)域區(qū)分不明顯、空間深度信息缺失等問題。

綜合看來，通過專業(yè)設備采集的3D多模態(tài)數據，已經成為優(yōu)化特定垂直場景AI虛擬數字人的智能化水平中，為數不多的解決方案之一。

怎樣獲得高品質的多模態(tài)訓練數據庫？AI基礎數據服務商的商業(yè)價值開始日益凸顯。

02.優(yōu)質算法“殺手锏”，高質量數據背后的技術試煉

數據、算法、算力被并稱為「AI三要素」，數據質量的高低，往往決定AI算法模型的性能上限。

▲2020-2025年中國AI基礎數據服務市場規(guī)模預測（來源：IDC中國）

但如果你認為AI基礎數據服務是個純人工作坊，那你就太小瞧這個行業(yè)的技術含量了。

尤其是多模態(tài)技術爆發(fā)以來，相應的對多模態(tài)數據需求的增長，逐步暴露了“作坊式”數據采標團隊“人?！睉?zhàn)術的短板，整個數據市場正向滿足客戶長尾需求演進，對服務商技術屬性的要求一再加碼。

其中，在訓練數據生產層，多語種多模態(tài)訓練數據設計技術、采集及標注技術是高質量訓練數據的生產基礎。

其次，在實際的采集環(huán)節(jié)中，數據損耗是常事，且造成損耗的原因迥異，而有經驗的AI數據服務商能用技術快速找出解法。

修復好數據，還要應對「精細對齊」的挑戰(zhàn)。

在虛擬數字人、智能座艙等場景中，越來越多應用開始將語音識別和計算機視覺結合，以提高理解人類意圖的準確率。

像這樣需用多個攝像頭、傳感器等設備來采集數據的應用，又帶來新的難題——如何將不同設備記錄的影像、聲音等數據，實現同步標注對齊？

▲不同通道錄制的語音數據不對齊情況示例

03.為更強智能輸送燃料，多模態(tài)數據強勢崛起

哪個AI應用不想實現更高的準確率、更自然貼心的交互能力呢？在更強智能需求的拉動下，基于多模態(tài)數據的AI算法模型日漸成為主流。

▲微軟多模態(tài)預訓練模型「女媧」可根據文本內容生成相應視頻

▲單一生物識別技術的特點（來源：零壹智庫、東方財富證券研究所）

可以看到，如今AI垂直應用場景呈現碎片化特征，對多模態(tài)數據的需求更加復雜和長尾化。

這些新業(yè)務場景需求的變化，更為考驗AI數據服務商處理復雜交叉業(yè)務場景數據的綜合能力。

在這樣的趨勢下，海天瑞聲等頭部品牌數據服務商的資源優(yōu)勢將被進一步放大。

▲2018-2020年海天瑞聲前五大客戶情況（根據IPO文件整理）

過去三年，海天瑞聲的前五大客戶呈現高復購率，足見其產品的高粘性。

04.結語：多模態(tài)終將主導智能產業(yè)未來

AI算法要想高質量，多模態(tài)數據得跟得上。

過去一年，應用場景的創(chuàng)新和機器學習算法的流行繼續(xù)帶動訓練數據需求爆發(fā)式增長。

在多模態(tài)大模型、虛擬數字人等熱門技術方向的驅動下，持續(xù)探索更強智能的AI應用，對高質量多模態(tài)訓練數據資產的需求愈發(fā)迫切。

歷史搜索全部刪除

熱門搜索

多模態(tài)時代來了，AI虛擬數字人，掀起百億數據服務新藍海

01.破圈而來，“完美”虛擬人，離不開的多模態(tài)

02.優(yōu)質算法“殺手锏”，高質量數據背后的技術試煉

03.為更強智能輸送燃料，多模態(tài)數據強勢崛起

04.結語：多模態(tài)終將主導智能產業(yè)未來

海天瑞聲

評論

多模態(tài)時代來了，AI虛擬數字人，掀起百億數據服務新藍海

01.破圈而來，“完美”虛擬人，離不開的多模態(tài)

02.優(yōu)質算法“殺手锏”，高質量數據背后的技術試煉

03.為更強智能輸送燃料，多模態(tài)數據強勢崛起

04.結語：多模態(tài)終將主導智能產業(yè)未來

多模態(tài)時代來了，AI虛擬數字人，掀起百億數據服務新藍海

01.破圈而來，“完美”虛擬人，離不開的多模態(tài)

02.優(yōu)質算法“殺手锏”，高質量數據背后的技術試煉

03.為更強智能輸送燃料，多模態(tài)數據強勢崛起

04.結語：多模態(tài)終將主導智能產業(yè)未來

海天瑞聲

評論

多模態(tài)時代來了，AI虛擬數字人，掀起百億數據服務新藍海

01.破圈而來，“完美”虛擬人，離不開的多模態(tài)

02.優(yōu)質算法“殺手锏”，高質量數據背后的技術試煉

03.為更強智能輸送燃料，多模態(tài)數據強勢崛起

04.結語：多模態(tài)終將主導智能產業(yè)未來

多模態(tài)時代來了，AI虛擬數字人，掀起百億數據服務新藍海

02.優(yōu)質算法“殺手锏”，高質量數據背后的技術試煉

03.為更強智能輸送燃料，多模態(tài)數據強勢崛起

多模態(tài)時代來了，AI虛擬數字人，掀起百億數據服務新藍海

01.破圈而來，“完美”虛擬人，離不開的多模態(tài)

02.優(yōu)質算法“殺手锏”，高質量數據背后的技術試煉

03.為更強智能輸送燃料，多模態(tài)數據強勢崛起