文|智東西 程茜
編輯|漠影
從“機(jī)器人之父”恩格爾伯格發(fā)明第一個(gè)機(jī)器人開始,人類就一直沒有停止過(guò)對(duì)機(jī)器人的探索和想象。在影視世界里,人類更是暢想機(jī)器人的各種可能,把科技浪漫主義發(fā)揮到極致,從《WALL-E》到《超能陸戰(zhàn)隊(duì)》,從《西部世界》到《芬奇》,形形式式的機(jī)器人故事被講述,它們或擁有人類的外觀,或具備超強(qiáng)的思維能力,或試圖建立自己的情感。
現(xiàn)實(shí)世界里,機(jī)器人雖然還遠(yuǎn)遠(yuǎn)達(dá)不到影視里呈現(xiàn)的高度智能,但實(shí)際上各相關(guān)行業(yè)和企業(yè)也一直在探索讓機(jī)器人變得更“聰明”的方式。令人意想不到的是,游戲技術(shù)也正在這場(chǎng)探索里發(fā)揮作用。
6月27日,騰訊游戲發(fā)布會(huì)上,公布了一個(gè)特殊的項(xiàng)目——游戲驅(qū)動(dòng)機(jī)器人加速智能學(xué)習(xí)項(xiàng)目,利用游戲技術(shù)和AI ,幫助騰訊首個(gè)全自研的四足機(jī)器人Robotics X Max實(shí)現(xiàn)智能控制、決策,并提升訓(xùn)練效率,這或許能成為機(jī)器人研發(fā)領(lǐng)域一個(gè)創(chuàng)新的突破口。
近日,智東西獨(dú)家對(duì)話項(xiàng)目技術(shù)團(tuán)隊(duì),深入了解將游戲技術(shù)應(yīng)用至機(jī)器人研發(fā)背后的故事,并探討游戲技術(shù)跨界的可行方向。
01.智能機(jī)器人訓(xùn)練成本高、優(yōu)化難?游戲技術(shù)來(lái)攻關(guān)
近年來(lái),機(jī)器人的“技能樹”逐漸枝繁葉茂,從早期能完成簡(jiǎn)單的單一動(dòng)作,發(fā)展到具備力覺、觸覺、聽覺等多重感官,再到同時(shí)能進(jìn)行多項(xiàng)復(fù)雜任務(wù),甚至試圖學(xué)會(huì)“思考”。
騰訊首席科學(xué)家、騰訊 AI Lab 及騰訊 Robotics X 實(shí)驗(yàn)室主任張正友將智能機(jī)器人的核心技術(shù)概括為A2G:A是人工智能(AI),B是機(jī)器人本體,C是控制,D是發(fā)育學(xué)習(xí)(developmental learning),E是情商,F(xiàn)是靈巧操控。通過(guò)學(xué)習(xí)能力、情感能力、操控能力及與其他要素的交互,機(jī)器人就會(huì)成為G,即人類的守護(hù)天使(guardian angel)。
這七個(gè)技術(shù)方向,推動(dòng)機(jī)器從采集信息向分析決策、實(shí)現(xiàn)有意識(shí)自主的高階智能發(fā)展——感知、學(xué)習(xí)、執(zhí)行、規(guī)劃。
說(shuō)起來(lái)容易,但要實(shí)現(xiàn)真正的智能進(jìn)階,仍然有相當(dāng)多的難題橫亙?cè)谇啊?/p>
就像人類在成長(zhǎng)過(guò)程中通過(guò)學(xué)習(xí)、實(shí)踐、試錯(cuò),逐漸建立思考能力一樣,研究人員希望給機(jī)器人設(shè)定一個(gè)目標(biāo),通過(guò)設(shè)計(jì)合理的獎(jiǎng)勵(lì)機(jī)制,讓它自己摸索著學(xué)會(huì)感知和適應(yīng)動(dòng)態(tài)的環(huán)境變化。
而在真實(shí)場(chǎng)景中做這種訓(xùn)練,會(huì)非?!百M(fèi)錢”,因?yàn)閷?shí)體機(jī)器人一旦磕磕碰碰,很容易損毀硬件,更別提還需耗費(fèi)大量的數(shù)據(jù)和訓(xùn)練時(shí)間。
無(wú)獨(dú)有偶,伴隨著游戲產(chǎn)品的迭代升級(jí),NPC(非玩家角色)似乎也在變得越來(lái)越“智能”。
在今天的游戲中,“狀態(tài)機(jī)”是最常見的智能模擬方案,從《吃豆人》的鬼魂,到《暴力摩托》的摩托車手,再到《荒野大鏢客》隨處能與玩家進(jìn)行交互的市民,隨著游戲的進(jìn)化和迭代,狀態(tài)機(jī)智能已能做到真假難辨。
但即便是將NPC做到足夠逼真的《荒野大鏢客2》,也僅僅實(shí)現(xiàn)了“運(yùn)動(dòng)匹配”。其技術(shù)總監(jiān)曾在一次訪談中回顧說(shuō),他們給馬設(shè)計(jì)了幾百種不同的動(dòng)作動(dòng)畫,就連喘氣都有上百條不同的聲音。而這些,并不是真正的智能,只是龐大行為樹和動(dòng)畫資源堆疊的成果。
那么如何通往真正的智能?怎樣實(shí)現(xiàn)更高質(zhì)量的虛擬角色,使其既能擁有更加自然真實(shí)的動(dòng)作表現(xiàn),又能顯著降低開發(fā)成本?
面對(duì)這項(xiàng)游戲與機(jī)器人研發(fā)的共同核心課題,騰訊游戲技術(shù)團(tuán)隊(duì)和機(jī)器人團(tuán)隊(duì)進(jìn)行了智能體動(dòng)作生成技術(shù)的合作研發(fā),并在游戲虛擬環(huán)境中應(yīng)用和訓(xùn)練NPC,讓NPC通過(guò)不斷自主學(xué)習(xí),學(xué)會(huì)更加擬真的動(dòng)作、反應(yīng)和表達(dá)。
研究期間,合作團(tuán)隊(duì)意識(shí)到,游戲里累積的大量技術(shù)經(jīng)驗(yàn)與虛擬模擬的訓(xùn)練條件,可以為機(jī)器人的智能研發(fā)提供幫助,同時(shí)幫助解決成本高、優(yōu)化難的兩大研發(fā)痛點(diǎn)。
在合作過(guò)程中,以騰訊Robotics X實(shí)驗(yàn)室為主的機(jī)器人部門負(fù)責(zé)設(shè)計(jì)核心算法,包括定義任務(wù)環(huán)境和目標(biāo)、構(gòu)建和訓(xùn)練AI算法、搭建機(jī)器人智能控制系統(tǒng)整體框架、真機(jī)部署等。
以天美J3工作室、天美技術(shù)中心、騰訊互娛旗下 START 團(tuán)隊(duì)、騰訊 AI Lab 為主的游戲和AI部門,則主要基于游戲NPC動(dòng)作模擬的智能體動(dòng)作生成技術(shù),助力實(shí)現(xiàn)機(jī)器人的自主決策并適配不同場(chǎng)景;同時(shí)提供高效和逼真的虛擬仿真能力,如環(huán)境場(chǎng)景搭建、核心物理引擎加速等,強(qiáng)化機(jī)器人訓(xùn)練效率和速度。
02.兩大核心游戲技術(shù)加持,機(jī)器人越來(lái)越“聰明”
智東西獲悉,經(jīng)騰訊多個(gè)團(tuán)隊(duì)合作,機(jī)器狗 Robotics X Max 的訓(xùn)練效率得到大幅提升。
此外,機(jī)器狗能基于對(duì)虛擬場(chǎng)景中周邊環(huán)境和自身狀態(tài)感知到的信息,實(shí)現(xiàn)更好的姿態(tài)和行為控制,在智能感知、智能控制和智能決策方面的能力有明顯進(jìn)步。
這背后,兩個(gè)游戲中的技術(shù)起到關(guān)鍵作用:
智能體動(dòng)作生成技術(shù):讓機(jī)器人學(xué)會(huì)“思考”
智能體動(dòng)作生成技術(shù)能讓虛擬環(huán)境中無(wú)論是NPC還是機(jī)器人都能提高“思考能力”,使其作出符合環(huán)境交互特點(diǎn)的擬真動(dòng)作和反應(yīng)。
需注意的是,這跟以往“填鴨式”教機(jī)器人、編碼設(shè)定固定動(dòng)作的邏輯大不相同。
具體來(lái)說(shuō),該技術(shù)利用AI強(qiáng)化學(xué)習(xí)算法,學(xué)習(xí)動(dòng)作捕捉數(shù)據(jù),通過(guò)數(shù)據(jù)驅(qū)動(dòng)的自適應(yīng)算法,讓NPC或機(jī)器人根據(jù)玩家操作或環(huán)境變化等不同外界反應(yīng),基于運(yùn)動(dòng)學(xué)原理來(lái)自主生成和調(diào)節(jié)動(dòng)作,仿佛幫助NPC或機(jī)器人形成大腦,讓它們進(jìn)行自主決策,自動(dòng)生成更像真實(shí)生物的動(dòng)作、反應(yīng)與表達(dá)。
有了這一技術(shù)加持,機(jī)器狗在向著既定目標(biāo)運(yùn)動(dòng)的過(guò)程中,即使臨時(shí)碰到預(yù)先不知道的障礙物,也能輕輕一閃,靈巧避開,靈活自主地修改運(yùn)動(dòng)軌跡,用不同路線方案完成既定目標(biāo)。
通過(guò)對(duì)學(xué)習(xí)算法中獎(jiǎng)勵(lì)函數(shù)的進(jìn)一步設(shè)計(jì)優(yōu)化,智能體動(dòng)作生成技術(shù)做到了讓機(jī)器人更靈動(dòng),該技術(shù)被用于研究訓(xùn)練之后,機(jī)器狗 Robotics X Max 的運(yùn)動(dòng)軌跡規(guī)劃將會(huì)更加自然流暢,能夠?qū)崿F(xiàn)更細(xì)顆粒動(dòng)作的智能生成、控制、決策,使動(dòng)作表現(xiàn)體現(xiàn)高度智能。
實(shí)時(shí)物理模擬技術(shù):百倍提升訓(xùn)練效率
智能體動(dòng)作生成技術(shù)可以幫助解決機(jī)器人自主動(dòng)作生成和控制,但是需要進(jìn)行大量的仿真訓(xùn)練。
而在游戲中被廣泛使用并積累了豐富經(jīng)驗(yàn)的實(shí)時(shí)物理模擬技術(shù),便是本次項(xiàng)目投入應(yīng)用的另一個(gè)核心技術(shù)。它可以基于動(dòng)力學(xué)搭建出高度擬真的虛擬環(huán)境,打破物理世界的局限性,滿足機(jī)器人研發(fā)對(duì)復(fù)雜訓(xùn)練環(huán)境和多樣化場(chǎng)景樣本的需求。
游戲是模擬現(xiàn)實(shí)世界的最佳場(chǎng)所,也是最好的虛擬模擬和訓(xùn)練環(huán)境。相比直接在真實(shí)場(chǎng)景中訓(xùn)練實(shí)體機(jī)器人,該技術(shù)能降低試錯(cuò)成本,避免出現(xiàn)危險(xiǎn),進(jìn)一步提升受力、碰撞等模擬效果的精確性,還有助于盡早發(fā)現(xiàn)機(jī)器人研發(fā)中的潛在問題。
利用實(shí)時(shí)物理模擬技術(shù),研究團(tuán)隊(duì)可在游戲中快速搭建不同擬真虛擬訓(xùn)練場(chǎng)景,將機(jī)器狗 Robotics X Max 的訓(xùn)練場(chǎng)搬到虛擬空間,參照現(xiàn)實(shí)中的運(yùn)動(dòng)數(shù)據(jù),讓機(jī)器狗在仿真的復(fù)雜地形中完成行走、奔跑、相互協(xié)作等訓(xùn)練,并通過(guò)引擎加速能力,大力縮減機(jī)器人在現(xiàn)實(shí)世界完成訓(xùn)練所需的過(guò)程與時(shí)間。
據(jù)項(xiàng)目技術(shù)團(tuán)隊(duì)介紹,原本在現(xiàn)實(shí)世界需要幾年的時(shí)間收集的數(shù)據(jù)量,可以在加速后的虛擬環(huán)境下,縮短成幾小時(shí)來(lái)生成。
在機(jī)器人智能控制領(lǐng)域,基于強(qiáng)化學(xué)習(xí)的機(jī)器人智能控制方法是一個(gè)非常有前景的技術(shù)方向。因?yàn)橛螒蚣夹g(shù)的加入,這一通過(guò)反復(fù)控制機(jī)器人運(yùn)動(dòng)、設(shè)計(jì)合理的獎(jiǎng)勵(lì),來(lái)指導(dǎo)機(jī)器人怎么學(xué)習(xí)穩(wěn)定地完成指定任務(wù),以達(dá)到強(qiáng)化學(xué)習(xí)的技術(shù)方法,也不再因?yàn)樾枰馁M(fèi)大量訓(xùn)練時(shí)間和金錢成本而不可想象。技術(shù)團(tuán)隊(duì)可以讓機(jī)器人模型在虛擬世界中從零開始訓(xùn)練學(xué)習(xí),再把總結(jié)出來(lái)的控制算法應(yīng)用到真實(shí)機(jī)器人上,使機(jī)器人研發(fā)更加高效和節(jié)省資源。
目前,項(xiàng)目技術(shù)團(tuán)隊(duì)已實(shí)現(xiàn)在虛擬環(huán)境中,單只機(jī)器狗經(jīng)過(guò)引擎加速后效率提升20倍,且同時(shí)訓(xùn)練的機(jī)器狗數(shù)量越多,訓(xùn)練效果越好,當(dāng)同時(shí)存在50只機(jī)器狗訓(xùn)練,訓(xùn)練效率能實(shí)現(xiàn)百倍提速。
未來(lái),結(jié)合GPU加速技術(shù),騰訊游戲技術(shù)團(tuán)隊(duì)將助力進(jìn)一步提升虛擬環(huán)境中機(jī)器狗的訓(xùn)練效率。
實(shí)現(xiàn)更好的動(dòng)作表現(xiàn),是游戲和機(jī)器人領(lǐng)域共同的重要研究目標(biāo)。騰訊游戲正在與騰訊 Robotics X 實(shí)驗(yàn)室聯(lián)合研發(fā)下一代智能機(jī)器人。
在將游戲技術(shù)和AI集成應(yīng)用到機(jī)器人智能控制和決策這個(gè)課題面前,還存在諸如對(duì)于各類接觸和碰撞高效且穩(wěn)定的的仿真、對(duì)于觸覺傳感器信號(hào)的利用和仿真,以及如何穩(wěn)定地將虛擬訓(xùn)練中得到的神經(jīng)網(wǎng)絡(luò)控制策略遷移到真機(jī)上等問題。
但技術(shù)團(tuán)隊(duì)正在借助游戲技術(shù)等探索穩(wěn)定的解決方案,以期將原本需要數(shù)周甚至數(shù)月的,完成一個(gè)從動(dòng)作設(shè)計(jì)、模擬仿真到真機(jī)調(diào)試的機(jī)器人控制任務(wù)的過(guò)程縮短到數(shù)天。
同時(shí),他們希望借助游戲技術(shù)構(gòu)建一套不斷進(jìn)化的智能系統(tǒng),實(shí)現(xiàn)多機(jī)器人協(xié)作、精準(zhǔn)控制,適應(yīng)復(fù)雜環(huán)境變化,從虛擬到現(xiàn)實(shí)幫助機(jī)器人解決智能控制與自主決策問題。
當(dāng)機(jī)器人能在游戲搭建的虛擬環(huán)境中實(shí)時(shí)感知、分析決策和行動(dòng)的時(shí)候,它們將來(lái)或可應(yīng)用于養(yǎng)老陪護(hù)等惠民服務(wù)和更多新場(chǎng)景,成為人類的好幫手。
03.解鎖科技創(chuàng)新想象力,游戲技術(shù)正持續(xù)“外溢”
智能體動(dòng)作生成技術(shù)、實(shí)時(shí)物理模擬技術(shù),被項(xiàng)目技術(shù)團(tuán)隊(duì)視作是未來(lái)智能機(jī)器人研發(fā)的重要技術(shù)方向。
而游戲作為一個(gè)綜合的技術(shù)平臺(tái),為這些技術(shù)提供了理想的研究環(huán)境和應(yīng)用場(chǎng)景,對(duì)推動(dòng)AI和機(jī)器人在感知、決策、控制、計(jì)算等方面的研究起到重要作用。
看向下一個(gè)十年,游戲技術(shù)將走向何方?
在本周的發(fā)布會(huì)上,騰訊游戲已經(jīng)給出了自己的答案——可以是人工智能、四足機(jī)器人,可以是工業(yè)仿真,也可以是數(shù)字文保,乃至浩瀚宇宙。
數(shù)字長(zhǎng)城、數(shù)字中軸、全真互聯(lián)數(shù)字工廠、聯(lián)合研發(fā)全動(dòng)飛行模擬機(jī)視景系統(tǒng)等多個(gè)游戲科技項(xiàng)目的推出,讓我們看到,騰訊游戲技術(shù)跨界探索的范圍正在延展。
近些年,國(guó)內(nèi)外科技巨頭相繼開始描繪下一代互聯(lián)網(wǎng)的藍(lán)圖,而數(shù)實(shí)融合已是公認(rèn)的大勢(shì)所趨。
在這股熱潮之中,游戲的可交互、高仿真、強(qiáng)沉浸、實(shí)時(shí)渲染等技術(shù)屬性,被進(jìn)一步放大,并外溢至科研、文娛、教育、醫(yī)療更多有價(jià)值的現(xiàn)實(shí)場(chǎng)景,為具體的社會(huì)命題帶來(lái)創(chuàng)新的解決方案,也為許多其他領(lǐng)域的技術(shù)進(jìn)步做出重要貢獻(xiàn)。
根據(jù)中科院《游戲技術(shù)——數(shù)實(shí)融合進(jìn)程中的技術(shù)新種群》研究報(bào)告,2020年游戲技術(shù)對(duì)芯片業(yè)的技術(shù)進(jìn)步貢獻(xiàn)率約為14.9%,對(duì)5G和VR/AR的科技貢獻(xiàn)率分別高達(dá)46.3%和71.6%。
可以預(yù)見的是,游戲技術(shù)將突破傳統(tǒng)游戲場(chǎng)景,通過(guò)跨界應(yīng)用牽引眾多高精技術(shù)產(chǎn)業(yè)快速發(fā)展,成為促進(jìn)跨領(lǐng)域科技創(chuàng)新的“隱形推手”。