編譯 | 智東西 劉柏涵
編輯 | 程茜
智東西10月20日消息,近日,美國論文預印本發(fā)布平臺arXiv收錄了一篇關于四足機器人攔截足球的論文,美國加州大學伯克利分校等學校的研究人員為名叫迷你獵豹的四足機器人部署了一個強化學習(Reinforcement Learning)框架,能夠讓它完成足球守門任務。該四足機器人對隨機射門的成功攔截率高達87.5%,而人類足球運動員的平均成功率為69%。
▲四足機器人攔截足球?qū)嶒?/p>
這項研究通過使用分層次強化學習框架,在四足機器人上結合了高動態(tài)運動和精確的物體感知方法。四足機器人在進行運動時,能用其末端執(zhí)行器跟蹤自身運動軌跡,并完成一系列的截球動作。
研究人員在麻省理工學院實驗室進行了攔截足球的相關實驗,并發(fā)表了名為《Creating a Dynamic Quadrupedal Robotic Goalkeeper with Reinforcement Learning(使用強化學習創(chuàng)建動態(tài)四足機器人守門員)》的論文,研究實驗展示了四足機器人能夠有效地攔截快速移動的球。
▲論文鏈接:https://arxiv.org/pdf/2210.04435.pdf
01.四足機器人成為足球守門員要分“三步走”
如何讓四足機器人成為足球守門員,這個問題要分三個步驟解決:操縱四足機器人攔截快速移動物體、控制四足機器人進行高動態(tài)運動,以及擊中高速運動的足球。
▲四足機器人攔截足球過程
1、四足機器人對快速移動物體的捕捉、打擊
在機器人操縱領域,人們已經(jīng)廣泛地研究了如何讓機器人捕捉或擊打快速移動的物體這一課題。球是比較常見的用于研究的快速移動物體。
處理機器人接球任務有兩種常見方法,一是估計球的位置和速度,利用球的動力學模型預測球的軌跡,并根據(jù)機器人的動力學模型或無模型強化學習框架生成機器人末端執(zhí)行器的軌跡,讓機器人在預測的攔截點接球。另一種方法是在模擬中學習端到端的策略,研究人員直接輸入球的預測軌跡圖像,然后在模擬中進行微調(diào)。
然而,由于四足機器人動力學模型非常復雜,以往基于模型的方法需要對球和機器人進行精確建模,這種方法難以在四足機器人上應用,而無模型強化學習框架方法,還沒有被應用于控制四足機器人運動的先例。
2、四足機器人通過高動態(tài)動作攔截足球
近幾年來,因為四足機器人的硬件和控制算法有了長足的進步,四足機器人能夠在現(xiàn)實世界中完成高動態(tài)的運動,如跳躍或跑步。實現(xiàn)這一目標共有兩種方法:
一種方法是利用四足機器人動力學模型的優(yōu)化控制框架,這些模型可以在四足機器人的全部模型上進行離線優(yōu)化,也可以在其簡化模型上進行在線部署。
另一種方法是利用無模型強化學習框架,先在模擬中通過跟蹤和錯誤訓練四足機器人,然后把其學習經(jīng)驗轉(zhuǎn)移到真實的四足機器人上。
然而,以前的研究大多只關注特定的動態(tài)運動技能,比如跑步、跳躍等,而沒有讓四足機器人在學習技能的基礎上,完成更豐富的動作,如在跟蹤不同的擺腿軌跡時完成跳躍,并攔截一個球。
▲四足機器人守門員防守人類進攻
3、四足機器人能在三維和高速運動下完成攔截
開發(fā)未來能與人類在足球比賽中競爭的機器人一直是機器人研究學界的一個長久目標,在設計機器人足球守門員方面,有一些研究是在工程學的輪式機器人的基礎之上進行開發(fā)。
以前關于四足機器人的研究,大多只考慮讓它們在二維平面內(nèi)移動并攔截從地面上低速滾動的球,而沒有考慮讓四足機器人在三維中和高速運動情況下去攔截球。
最近,利用強化學習框架,一個四足機器人展示了在低速行走時將足球運往球門的能力,另一個四足機器人能在站立時用單一的射擊技能,將足球精確地射向一個隨機的給定目標。然而,四足機器人進行多種高動態(tài)運動技能,去精確踢快速移動的足球還沒有得到證明。
02.強化學習框架讓四足機器人攔截成功率高達87.5%
研究實驗是在麻省理工學院的迷你獵豹四足機器人上進行的。它重9公斤,高0.4米,有12個驅(qū)動電機和6個自由度的浮動底座,能夠進行平移、滾動和俯仰等動作。
▲迷你獵豹四足機器人
以往的四足機器人的強度學習框架主要集中在低層次的運動控制研究,如計算行走速度或模仿參照物運動等,沒有將學到的運動技能擴展到更高層次的任務,比如讓四足機器人通過敏捷的動作去精確攔截快速移動的足球。
▲四足機器人攔截足球?qū)嶒炘O計
研究人員在論文中寫道:“將低層次運動控制和高層次精確攔截結合起來,這很有挑戰(zhàn)性,單獨研究其中一種就已經(jīng)很困難了?!?/p>
為了解決上述問題,研究人員提出了一個無模型的強化學習框架,將四足機器人動態(tài)的腿部運動和快速、精確的部分手臂操縱結合起來,以應對飛來的球。
▲強化學習框架
該框架共包含兩個部分,第一部分是低層次的運動控制,包含了跳躍、俯沖和側身等不同運動技能的多種控制策略,這些策略可以覆蓋球門的不同區(qū)域。每個控制策略都能使四足機器人在執(zhí)行一種特定的運動技能時,跟蹤末端效應器,記錄其運動軌跡。
第二部分是一個高級規(guī)劃器,它能夠確定末端效應器軌跡和決定所需的技能,從而攔截飛向球門不同區(qū)域的球。
在麻省理工學院的實驗證明,多技能強化學習框架明顯優(yōu)于以往基于模型的計劃器,并且能夠充分地利用每種技能的特殊性。
分層次的強化學習框架可以直接將四足機器人在模擬中學習到的動態(tài)動作和守門員的技能轉(zhuǎn)移到現(xiàn)實中的四足機器人上,實驗中的四足機器人對隨機射門的成功攔截率為87.5%,而人類足球運動員的平均成功率為69%。
03.多技能組合促四足機器人快速動態(tài)反應
因為球的彈道總時間通常在1秒以內(nèi),所以四足機器人需要快速反應。從球門中間的初始站立姿勢開始,四足機器人需要執(zhí)行非常動態(tài)的機動動作來攔截球。受到人類守門員的啟發(fā),研究人員提出了一套攔截飛向球門不同區(qū)域的球的技能——側身、俯沖和跳躍。
▲側身、俯沖和跳躍示意圖
1、快速側部攔截,無法覆蓋球門下角、上部區(qū)域
當球在地上滾動或以低角度飛向球門時,四足機器人采取快速側步,在橫向方向上攔截球。在只需要邁開較小步幅時,四足機器人可能只需要擺動起一條前腿,而其余的腿可以使其保持在站立狀態(tài)。但對于較大的步幅,它需要進行一個小的側跳。然而,側跳技能可能無法覆蓋離四足機器人較遠的區(qū)域,如球門的下角或上部區(qū)域。
▲四足機器人在使用側身技能
2、俯沖技能一氣呵成,轉(zhuǎn)移重心、轉(zhuǎn)動身體、跳躍夠球
俯沖技能是基于四足跳躍之上的運動,它使得四足機器人可以攔截更大的球門面積。在使用俯沖技能時,四足機器人應首先將身體重心移至后腿上,然后朝著球的運動方向轉(zhuǎn)動身體,在跳躍的同時伸出兩條前腿去夠球,最后落地。在俯沖過程中,它的后腿是否離開地面,取決于它需要走多遠。俯沖技能使四足機器人能夠迅速封鎖球門的下角。
▲四足機器人在使用俯沖技能
3、跳躍攔截高處足球,還能穩(wěn)定降落
跳躍與俯沖技能類似,跳躍技能也要求四足機器人以最快的速度抬起身體并向上擺動前腿。但在跳躍時,它還需要將其前腿伸得更高,以便攔截在球門上部區(qū)域的球。為了進行這種動態(tài)跳躍,四足機器人需要用它的后腿將身體推離地面,以便讓它的前腿夠到更高區(qū)域。在球被攔截后,四足機器人需要在空中重新調(diào)整自己,以達到更穩(wěn)定的降落姿勢。
▲四足機器人在使用跳躍技能
04.結語:強化學習框架未來可應用于更多場景
近年來,機器人應用研究在不斷擴展,本篇論文為機器人研究學界提供了一個新的四足機器人研究方向,將分層次的強化學習框架應用到驅(qū)動控制方面,或許對未來四足機器人的高級規(guī)劃控制產(chǎn)生重要意義。
此外,在這項研究中,研究人員只關注了守門員的工作,但論文所提出的框架可以擴展到其他的場景,比如說多技能足球等。如果未來該強化學習模型能夠成功應用,讓機器人與人類運動員進行足球比賽的想法或許真的能夠?qū)崿F(xiàn)。
來源:TechCrunch、arXiv