文|智東西 程茜
編輯|漠影
從“機器人之父”恩格爾伯格發(fā)明第一個機器人開始,人類就一直沒有停止過對機器人的探索和想象。在影視世界里,人類更是暢想機器人的各種可能,把科技浪漫主義發(fā)揮到極致,從《WALL-E》到《超能陸戰(zhàn)隊》,從《西部世界》到《芬奇》,形形式式的機器人故事被講述,它們或擁有人類的外觀,或具備超強的思維能力,或試圖建立自己的情感。
現(xiàn)實世界里,機器人雖然還遠(yuǎn)遠(yuǎn)達(dá)不到影視里呈現(xiàn)的高度智能,但實際上各相關(guān)行業(yè)和企業(yè)也一直在探索讓機器人變得更“聰明”的方式。令人意想不到的是,游戲技術(shù)也正在這場探索里發(fā)揮作用。
6月27日,騰訊游戲發(fā)布會上,公布了一個特殊的項目——游戲驅(qū)動機器人加速智能學(xué)習(xí)項目,利用游戲技術(shù)和AI ,幫助騰訊首個全自研的四足機器人Robotics X Max實現(xiàn)智能控制、決策,并提升訓(xùn)練效率,這或許能成為機器人研發(fā)領(lǐng)域一個創(chuàng)新的突破口。
近日,智東西獨家對話項目技術(shù)團(tuán)隊,深入了解將游戲技術(shù)應(yīng)用至機器人研發(fā)背后的故事,并探討游戲技術(shù)跨界的可行方向。
01.智能機器人訓(xùn)練成本高、優(yōu)化難?游戲技術(shù)來攻關(guān)
近年來,機器人的“技能樹”逐漸枝繁葉茂,從早期能完成簡單的單一動作,發(fā)展到具備力覺、觸覺、聽覺等多重感官,再到同時能進(jìn)行多項復(fù)雜任務(wù),甚至試圖學(xué)會“思考”。
騰訊首席科學(xué)家、騰訊 AI Lab 及騰訊 Robotics X 實驗室主任張正友將智能機器人的核心技術(shù)概括為A2G:A是人工智能(AI),B是機器人本體,C是控制,D是發(fā)育學(xué)習(xí)(developmental learning),E是情商,F(xiàn)是靈巧操控。通過學(xué)習(xí)能力、情感能力、操控能力及與其他要素的交互,機器人就會成為G,即人類的守護(hù)天使(guardian angel)。
這七個技術(shù)方向,推動機器從采集信息向分析決策、實現(xiàn)有意識自主的高階智能發(fā)展——感知、學(xué)習(xí)、執(zhí)行、規(guī)劃。
說起來容易,但要實現(xiàn)真正的智能進(jìn)階,仍然有相當(dāng)多的難題橫亙在前。
就像人類在成長過程中通過學(xué)習(xí)、實踐、試錯,逐漸建立思考能力一樣,研究人員希望給機器人設(shè)定一個目標(biāo),通過設(shè)計合理的獎勵機制,讓它自己摸索著學(xué)會感知和適應(yīng)動態(tài)的環(huán)境變化。
而在真實場景中做這種訓(xùn)練,會非?!百M錢”,因為實體機器人一旦磕磕碰碰,很容易損毀硬件,更別提還需耗費大量的數(shù)據(jù)和訓(xùn)練時間。
無獨有偶,伴隨著游戲產(chǎn)品的迭代升級,NPC(非玩家角色)似乎也在變得越來越“智能”。
在今天的游戲中,“狀態(tài)機”是最常見的智能模擬方案,從《吃豆人》的鬼魂,到《暴力摩托》的摩托車手,再到《荒野大鏢客》隨處能與玩家進(jìn)行交互的市民,隨著游戲的進(jìn)化和迭代,狀態(tài)機智能已能做到真假難辨。
但即便是將NPC做到足夠逼真的《荒野大鏢客2》,也僅僅實現(xiàn)了“運動匹配”。其技術(shù)總監(jiān)曾在一次訪談中回顧說,他們給馬設(shè)計了幾百種不同的動作動畫,就連喘氣都有上百條不同的聲音。而這些,并不是真正的智能,只是龐大行為樹和動畫資源堆疊的成果。
那么如何通往真正的智能?怎樣實現(xiàn)更高質(zhì)量的虛擬角色,使其既能擁有更加自然真實的動作表現(xiàn),又能顯著降低開發(fā)成本?
面對這項游戲與機器人研發(fā)的共同核心課題,騰訊游戲技術(shù)團(tuán)隊和機器人團(tuán)隊進(jìn)行了智能體動作生成技術(shù)的合作研發(fā),并在游戲虛擬環(huán)境中應(yīng)用和訓(xùn)練NPC,讓NPC通過不斷自主學(xué)習(xí),學(xué)會更加擬真的動作、反應(yīng)和表達(dá)。
研究期間,合作團(tuán)隊意識到,游戲里累積的大量技術(shù)經(jīng)驗與虛擬模擬的訓(xùn)練條件,可以為機器人的智能研發(fā)提供幫助,同時幫助解決成本高、優(yōu)化難的兩大研發(fā)痛點。
在合作過程中,以騰訊Robotics X實驗室為主的機器人部門負(fù)責(zé)設(shè)計核心算法,包括定義任務(wù)環(huán)境和目標(biāo)、構(gòu)建和訓(xùn)練AI算法、搭建機器人智能控制系統(tǒng)整體框架、真機部署等。
以天美J3工作室、天美技術(shù)中心、騰訊互娛旗下 START 團(tuán)隊、騰訊 AI Lab 為主的游戲和AI部門,則主要基于游戲NPC動作模擬的智能體動作生成技術(shù),助力實現(xiàn)機器人的自主決策并適配不同場景;同時提供高效和逼真的虛擬仿真能力,如環(huán)境場景搭建、核心物理引擎加速等,強化機器人訓(xùn)練效率和速度。
02.兩大核心游戲技術(shù)加持,機器人越來越“聰明”
智東西獲悉,經(jīng)騰訊多個團(tuán)隊合作,機器狗 Robotics X Max 的訓(xùn)練效率得到大幅提升。
此外,機器狗能基于對虛擬場景中周邊環(huán)境和自身狀態(tài)感知到的信息,實現(xiàn)更好的姿態(tài)和行為控制,在智能感知、智能控制和智能決策方面的能力有明顯進(jìn)步。
這背后,兩個游戲中的技術(shù)起到關(guān)鍵作用:
智能體動作生成技術(shù):讓機器人學(xué)會“思考”
智能體動作生成技術(shù)能讓虛擬環(huán)境中無論是NPC還是機器人都能提高“思考能力”,使其作出符合環(huán)境交互特點的擬真動作和反應(yīng)。
需注意的是,這跟以往“填鴨式”教機器人、編碼設(shè)定固定動作的邏輯大不相同。
具體來說,該技術(shù)利用AI強化學(xué)習(xí)算法,學(xué)習(xí)動作捕捉數(shù)據(jù),通過數(shù)據(jù)驅(qū)動的自適應(yīng)算法,讓NPC或機器人根據(jù)玩家操作或環(huán)境變化等不同外界反應(yīng),基于運動學(xué)原理來自主生成和調(diào)節(jié)動作,仿佛幫助NPC或機器人形成大腦,讓它們進(jìn)行自主決策,自動生成更像真實生物的動作、反應(yīng)與表達(dá)。
有了這一技術(shù)加持,機器狗在向著既定目標(biāo)運動的過程中,即使臨時碰到預(yù)先不知道的障礙物,也能輕輕一閃,靈巧避開,靈活自主地修改運動軌跡,用不同路線方案完成既定目標(biāo)。
通過對學(xué)習(xí)算法中獎勵函數(shù)的進(jìn)一步設(shè)計優(yōu)化,智能體動作生成技術(shù)做到了讓機器人更靈動,該技術(shù)被用于研究訓(xùn)練之后,機器狗 Robotics X Max 的運動軌跡規(guī)劃將會更加自然流暢,能夠?qū)崿F(xiàn)更細(xì)顆粒動作的智能生成、控制、決策,使動作表現(xiàn)體現(xiàn)高度智能。
實時物理模擬技術(shù):百倍提升訓(xùn)練效率
智能體動作生成技術(shù)可以幫助解決機器人自主動作生成和控制,但是需要進(jìn)行大量的仿真訓(xùn)練。
而在游戲中被廣泛使用并積累了豐富經(jīng)驗的實時物理模擬技術(shù),便是本次項目投入應(yīng)用的另一個核心技術(shù)。它可以基于動力學(xué)搭建出高度擬真的虛擬環(huán)境,打破物理世界的局限性,滿足機器人研發(fā)對復(fù)雜訓(xùn)練環(huán)境和多樣化場景樣本的需求。
游戲是模擬現(xiàn)實世界的最佳場所,也是最好的虛擬模擬和訓(xùn)練環(huán)境。相比直接在真實場景中訓(xùn)練實體機器人,該技術(shù)能降低試錯成本,避免出現(xiàn)危險,進(jìn)一步提升受力、碰撞等模擬效果的精確性,還有助于盡早發(fā)現(xiàn)機器人研發(fā)中的潛在問題。
利用實時物理模擬技術(shù),研究團(tuán)隊可在游戲中快速搭建不同擬真虛擬訓(xùn)練場景,將機器狗 Robotics X Max 的訓(xùn)練場搬到虛擬空間,參照現(xiàn)實中的運動數(shù)據(jù),讓機器狗在仿真的復(fù)雜地形中完成行走、奔跑、相互協(xié)作等訓(xùn)練,并通過引擎加速能力,大力縮減機器人在現(xiàn)實世界完成訓(xùn)練所需的過程與時間。
據(jù)項目技術(shù)團(tuán)隊介紹,原本在現(xiàn)實世界需要幾年的時間收集的數(shù)據(jù)量,可以在加速后的虛擬環(huán)境下,縮短成幾小時來生成。
在機器人智能控制領(lǐng)域,基于強化學(xué)習(xí)的機器人智能控制方法是一個非常有前景的技術(shù)方向。因為游戲技術(shù)的加入,這一通過反復(fù)控制機器人運動、設(shè)計合理的獎勵,來指導(dǎo)機器人怎么學(xué)習(xí)穩(wěn)定地完成指定任務(wù),以達(dá)到強化學(xué)習(xí)的技術(shù)方法,也不再因為需要耗費大量訓(xùn)練時間和金錢成本而不可想象。技術(shù)團(tuán)隊可以讓機器人模型在虛擬世界中從零開始訓(xùn)練學(xué)習(xí),再把總結(jié)出來的控制算法應(yīng)用到真實機器人上,使機器人研發(fā)更加高效和節(jié)省資源。
目前,項目技術(shù)團(tuán)隊已實現(xiàn)在虛擬環(huán)境中,單只機器狗經(jīng)過引擎加速后效率提升20倍,且同時訓(xùn)練的機器狗數(shù)量越多,訓(xùn)練效果越好,當(dāng)同時存在50只機器狗訓(xùn)練,訓(xùn)練效率能實現(xiàn)百倍提速。
未來,結(jié)合GPU加速技術(shù),騰訊游戲技術(shù)團(tuán)隊將助力進(jìn)一步提升虛擬環(huán)境中機器狗的訓(xùn)練效率。
實現(xiàn)更好的動作表現(xiàn),是游戲和機器人領(lǐng)域共同的重要研究目標(biāo)。騰訊游戲正在與騰訊 Robotics X 實驗室聯(lián)合研發(fā)下一代智能機器人。
在將游戲技術(shù)和AI集成應(yīng)用到機器人智能控制和決策這個課題面前,還存在諸如對于各類接觸和碰撞高效且穩(wěn)定的的仿真、對于觸覺傳感器信號的利用和仿真,以及如何穩(wěn)定地將虛擬訓(xùn)練中得到的神經(jīng)網(wǎng)絡(luò)控制策略遷移到真機上等問題。
但技術(shù)團(tuán)隊正在借助游戲技術(shù)等探索穩(wěn)定的解決方案,以期將原本需要數(shù)周甚至數(shù)月的,完成一個從動作設(shè)計、模擬仿真到真機調(diào)試的機器人控制任務(wù)的過程縮短到數(shù)天。
同時,他們希望借助游戲技術(shù)構(gòu)建一套不斷進(jìn)化的智能系統(tǒng),實現(xiàn)多機器人協(xié)作、精準(zhǔn)控制,適應(yīng)復(fù)雜環(huán)境變化,從虛擬到現(xiàn)實幫助機器人解決智能控制與自主決策問題。
當(dāng)機器人能在游戲搭建的虛擬環(huán)境中實時感知、分析決策和行動的時候,它們將來或可應(yīng)用于養(yǎng)老陪護(hù)等惠民服務(wù)和更多新場景,成為人類的好幫手。
03.解鎖科技創(chuàng)新想象力,游戲技術(shù)正持續(xù)“外溢”
智能體動作生成技術(shù)、實時物理模擬技術(shù),被項目技術(shù)團(tuán)隊視作是未來智能機器人研發(fā)的重要技術(shù)方向。
而游戲作為一個綜合的技術(shù)平臺,為這些技術(shù)提供了理想的研究環(huán)境和應(yīng)用場景,對推動AI和機器人在感知、決策、控制、計算等方面的研究起到重要作用。
看向下一個十年,游戲技術(shù)將走向何方?
在本周的發(fā)布會上,騰訊游戲已經(jīng)給出了自己的答案——可以是人工智能、四足機器人,可以是工業(yè)仿真,也可以是數(shù)字文保,乃至浩瀚宇宙。
數(shù)字長城、數(shù)字中軸、全真互聯(lián)數(shù)字工廠、聯(lián)合研發(fā)全動飛行模擬機視景系統(tǒng)等多個游戲科技項目的推出,讓我們看到,騰訊游戲技術(shù)跨界探索的范圍正在延展。
近些年,國內(nèi)外科技巨頭相繼開始描繪下一代互聯(lián)網(wǎng)的藍(lán)圖,而數(shù)實融合已是公認(rèn)的大勢所趨。
在這股熱潮之中,游戲的可交互、高仿真、強沉浸、實時渲染等技術(shù)屬性,被進(jìn)一步放大,并外溢至科研、文娛、教育、醫(yī)療更多有價值的現(xiàn)實場景,為具體的社會命題帶來創(chuàng)新的解決方案,也為許多其他領(lǐng)域的技術(shù)進(jìn)步做出重要貢獻(xiàn)。
根據(jù)中科院《游戲技術(shù)——數(shù)實融合進(jìn)程中的技術(shù)新種群》研究報告,2020年游戲技術(shù)對芯片業(yè)的技術(shù)進(jìn)步貢獻(xiàn)率約為14.9%,對5G和VR/AR的科技貢獻(xiàn)率分別高達(dá)46.3%和71.6%。
可以預(yù)見的是,游戲技術(shù)將突破傳統(tǒng)游戲場景,通過跨界應(yīng)用牽引眾多高精技術(shù)產(chǎn)業(yè)快速發(fā)展,成為促進(jìn)跨領(lǐng)域科技創(chuàng)新的“隱形推手”。