亚洲精品偷拍视频免费观看,欧美日韩一级内射可以观看的视频

界面新聞?dòng)浾?| 查沁君
界面新聞編輯 | 宋佳楠

用數(shù)字人做直播常常會提及“120秒戰(zhàn)斗”的說法，指的是如果120秒內(nèi)，用戶不覺得這是一個(gè)讓他感到別扭的數(shù)字人，就會跨過“恐怖谷”效應(yīng)（當(dāng)人類看到類似人類的物體，特別是機(jī)器人時(shí)所表現(xiàn)出的積極和消極反應(yīng)）。

在京東內(nèi)部看來，AI劉強(qiáng)東做到了這一點(diǎn)。

自近日劉強(qiáng)東變身AI數(shù)字人坐鎮(zhèn)京東采銷直播間后，市場上對數(shù)字人直播的討論也再度熱了起來，核心聚焦在直播數(shù)字人如何能做到更像真人，有哪些更實(shí)際的應(yīng)用場景和商業(yè)化方向等。

目前行業(yè)將直播數(shù)字人劃分為三級。第一級數(shù)字人主要扮演輔助角色，填補(bǔ)真人主播忙碌或休息時(shí)的直播空缺，力爭像真人。此類數(shù)字人將商品詳情轉(zhuǎn)化為視頻內(nèi)容參與直播，與真人主播形成互補(bǔ)，可利用閑時(shí)提升轉(zhuǎn)化率。

第二級數(shù)字人可媲美真人，能在重要時(shí)刻獨(dú)立承擔(dān)直播任務(wù)。

第三級數(shù)字人更像一個(gè)真正的數(shù)字分身，而非替代關(guān)系，能深入理解并展現(xiàn)個(gè)體的思想、文化等深層特質(zhì)，實(shí)現(xiàn)深度交流。

“京東云言犀數(shù)字人已經(jīng)達(dá)到第二檔，通過圖靈測試，并可在短時(shí)間內(nèi)代替真人直播?！本〇|云言犀負(fù)責(zé)人對界面新聞表示。

該負(fù)責(zé)人認(rèn)為，雖然AI劉強(qiáng)東在形象、聲音、動(dòng)作等方面已盡可能接近本人，但要完全替代尚有難度，特別是宿遷話口音也增加了一些挑戰(zhàn)。

從第一級到第二級的過渡，與背后的技術(shù)路線選擇密切相關(guān)。

早在2020年，京東云言犀便開始了數(shù)字人相關(guān)的嘗試，彼時(shí)業(yè)界普遍遵循分步構(gòu)建的方式：先建模型，調(diào)整動(dòng)作驅(qū)動(dòng)，添加語音，適配實(shí)際動(dòng)作，最后渲染。

盡管這種方法邏輯清晰，但成本高昂，也無法滿足實(shí)時(shí)性要求，實(shí)際效果有限，因?yàn)?/span>每走錯(cuò)一步，下一步都無法修補(bǔ)。于是團(tuán)隊(duì)開始思考轉(zhuǎn)向基于大模型的“端到端”直接渲染技術(shù)，即一次性輸出渲染完成的視頻。該技術(shù)理論上能實(shí)現(xiàn)更高的效果上限。

這種“端到端”的技術(shù)路線有兩種應(yīng)用方法，根據(jù)具體場景靈活運(yùn)用：一是完全跳過中間態(tài)建模，無需3D Mesh（即三維網(wǎng)格，計(jì)算機(jī)圖形學(xué)中的一個(gè)核心概念）；二是僅通過一張照片就能構(gòu)建出人臉的3D Mesh模型，實(shí)現(xiàn)表情、唇形的精細(xì)控制和紋理渲染。

目前京東云言犀數(shù)字人已經(jīng)能做到大姿態(tài)（包括頭部、軀體、手部動(dòng)作）和實(shí)時(shí)交互，下一步計(jì)劃實(shí)現(xiàn)更為復(fù)雜的實(shí)時(shí)對話交互。而實(shí)時(shí)的難度非常大，即使是Sora，生成五分鐘的視頻，也要在英偉達(dá)H100芯片上推理一個(gè)小時(shí)才可以做到。

談及與Sora的對比，該負(fù)責(zé)人指出，兩者雖思路相似，但在應(yīng)用場景上存在顯著差異。Sora屬于通用的視頻應(yīng)用生成，京東云言犀數(shù)字人則偏重人物視頻生成，并看好后者在商業(yè)價(jià)值和社會影響力上的潛力。

二者的差別還在于，Sora目前的視頻生成暫不支持有聲，而數(shù)字人則要求極強(qiáng)的音視頻同步，并投入情緒，這是一大挑戰(zhàn)。

“目前來看，數(shù)字人直播帶貨有很大機(jī)會成為一個(gè)大爆點(diǎn)，主要因?yàn)樗趦?nèi)容層次達(dá)到了一個(gè)新的水準(zhǔn)，大家的接受度和信任度已經(jīng)過了關(guān)鍵點(diǎn)?！痹撠?fù)責(zé)人對界面新聞表示。

除數(shù)字人之外，京東還將AI技術(shù)用于一系列客服與導(dǎo)購功能，如自動(dòng)外呼、智能導(dǎo)購、一體化后臺咨詢服務(wù)等，現(xiàn)今重點(diǎn)關(guān)注數(shù)字人、深度對話導(dǎo)購、文生圖及圖片生成。

京東云言犀算法總監(jiān)稱，在執(zhí)行層面，團(tuán)隊(duì)已在語音合成（TTS）技術(shù)上實(shí)現(xiàn)了零樣本應(yīng)用，無需對模型進(jìn)行專門訓(xùn)練，即可直接合成特定音色和說話風(fēng)格。

除了進(jìn)一步提升數(shù)字人在直播間、短視頻中的表現(xiàn)力，京東內(nèi)部希望能以更低成本、更低門檻推進(jìn)數(shù)字人，盡量少讓真人拍攝錄制。“但從具體技術(shù)上說，肯定是大冒險(xiǎn)?！本〇|云言犀算法總監(jiān)稱。

商業(yè)模式方面，直播、短視頻、客服、線下交互大屏等，都是數(shù)字人的應(yīng)用場景，可選SaaS（一種基于互聯(lián)網(wǎng)提供軟件應(yīng)用程序的模式）或KA（重點(diǎn)客戶）定制。前者又分多種模式，比如按流量或是按標(biāo)準(zhǔn)產(chǎn)品，亦或是產(chǎn)品+服務(wù)，后者對效果和各方面要求會更高。此外還有按產(chǎn)品實(shí)際銷售數(shù)量計(jì)算廣告費(fèi)用的CPS抽傭模式。

在數(shù)字人使用形式上，主要分兩種：云端使用和用戶本地部署。團(tuán)隊(duì)介紹，言犀客戶采用前者居多，相較預(yù)先做好的demo，言犀數(shù)字人直播是通過訓(xùn)練生成式網(wǎng)絡(luò)模型實(shí)時(shí)生成，可支持上千個(gè)直播間在云端同時(shí)播，開播成本據(jù)稱降低30%。

“直播業(yè)態(tài)某種意義上是以個(gè)人為背景的一種表演和交互，而且能實(shí)時(shí)互動(dòng)。”京東云言犀負(fù)責(zé)人稱。

如果能完美實(shí)現(xiàn)實(shí)時(shí)互動(dòng)，當(dāng)然是理想狀態(tài)，但目前市場對于數(shù)字人最大的詬病之一就是缺少情感。有人好奇未來是否有可能誕生一個(gè)類似董宇輝的超級數(shù)字人主播？

在京東云言犀負(fù)責(zé)人看來，技術(shù)上完全有可能，但倫理和感情上不一定能成立，“大家喜歡董宇輝，肯定是因?yàn)檫@個(gè)人作為一個(gè)實(shí)在人的特質(zhì)，但不知道未來會如何解決倫理問題，預(yù)測未來是件很難的事。”

界面新聞?dòng)浾?| 查沁君
界面新聞編輯 | 宋佳楠

在京東內(nèi)部看來，AI劉強(qiáng)東做到了這一點(diǎn)。

第二級數(shù)字人可媲美真人，能在重要時(shí)刻獨(dú)立承擔(dān)直播任務(wù)。

“京東云言犀數(shù)字人已經(jīng)達(dá)到第二檔，通過圖靈測試，并可在短時(shí)間內(nèi)代替真人直播。”京東云言犀負(fù)責(zé)人對界面新聞表示。

從第一級到第二級的過渡，與背后的技術(shù)路線選擇密切相關(guān)。

二者的差別還在于，Sora目前的視頻生成暫不支持有聲，而數(shù)字人則要求極強(qiáng)的音視頻同步，并投入情緒，這是一大挑戰(zhàn)。

除了進(jìn)一步提升數(shù)字人在直播間、短視頻中的表現(xiàn)力，京東內(nèi)部希望能以更低成本、更低門檻推進(jìn)數(shù)字人，盡量少讓真人拍攝錄制。“但從具體技術(shù)上說，肯定是大冒險(xiǎn)。”京東云言犀算法總監(jiān)稱。

“直播業(yè)態(tài)某種意義上是以個(gè)人為背景的一種表演和交互，而且能實(shí)時(shí)互動(dòng)。”京東云言犀負(fù)責(zé)人稱。

在京東云言犀負(fù)責(zé)人看來，技術(shù)上完全有可能，但倫理和感情上不一定能成立，“大家喜歡董宇輝，肯定是因?yàn)檫@個(gè)人作為一個(gè)實(shí)在人的特質(zhì)，但不知道未來會如何解決倫理問題，預(yù)測未來是件很難的事?！?/span>

歷史搜索全部刪除

熱門搜索

距離成為有情感的數(shù)字人主播，AI劉強(qiáng)東還要邁過這些坎

京東

評論

距離成為有情感的數(shù)字人主播，AI劉強(qiáng)東還要邁過這些坎

距離成為有情感的數(shù)字人主播，AI劉強(qiáng)東還要邁過這些坎

京東

評論

距離成為有情感的數(shù)字人主播，AI劉強(qiáng)東還要邁過這些坎

距離成為有情感的數(shù)字人主播，AI劉強(qiáng)東還要邁過這些坎