正在閱讀:

AI玩賽車游戲登上Nature封面,擊敗人類冠軍

掃一掃下載界面新聞APP

AI玩賽車游戲登上Nature封面,擊敗人類冠軍

索尼AI上演“速度與激情”:不僅智商超群,還懂體育精神。

編譯 | 智東西 ZeR0

編輯 | 漠影

新的索尼大法來了!智東西2月10日報道,今日,索尼AI部門Sony AI重磅宣布,其AI程序擊敗了世界上最頂級的賽車游戲選手,并登上國際學(xué)術(shù)頂刊Nature的封面。

論文鏈接:https://www.nature.com/articles/s41586-021-04357-7

這是繼AI在撲克、象棋、圍棋、星際爭霸、DOTA等游戲擊敗人類冠軍選手后,游戲AI實現(xiàn)的又一里程碑。作為全球首個能夠在高度擬真賽車模擬游戲中戰(zhàn)勝最強人類選手的賽車AI智能體,索尼的賽車游戲AI GT Sophy僅用一兩天磨練戰(zhàn)術(shù)和技巧,就做到了超過賽車模擬游戲《GT賽車》中可以擊敗95%的人類玩家。在訓(xùn)練總計45000小時后,這個AI程序已經(jīng)能與頂級GT賽車玩家一較高下。

相比此前AI已經(jīng)掌握的棋牌類游戲及部分多人策略游戲,《GT賽車》更加復(fù)雜,因為它高度模擬現(xiàn)實世界,每輛車、每條軌道都經(jīng)過建模,視覺、音頻以及動態(tài)方面全部盡可能地還原現(xiàn)實世界的駕駛體驗。這使得AI必須具備極強的持續(xù)判斷和快速反應(yīng)能力,在高速變動的條件下,綜合考量摩擦、空氣動力學(xué)、駕駛路線、速度、方向等各種因素,在距離對手幾英寸的范圍內(nèi),對具有復(fù)雜非線性動力學(xué)的車輛進行實時控制,并知道如何在不違規(guī)的前提下超越對手。“在一場正面競賽中如此超越杰出的人類車手,是AI領(lǐng)域的一項里程碑式成就?!惫餐牡乃固垢4髮W(xué)汽車研究中心聯(lián)席主任克里斯·格迪斯(Chris Gerdes)教授相信,用于開發(fā)該AI的技術(shù)有望在自動駕駛汽車軟件中發(fā)揮作用。

GitHub鏈接:https://sonyai.github.io/gt_sophy_public/

01.比玩星際爭霸更強的智能體,精通控制、戰(zhàn)術(shù)和禮儀

GT Sophy研究項目啟動于2020年4月,是一個使用新型深度強化學(xué)習(xí)平臺進行訓(xùn)練的自主AI智能體,也是Sony AI自2019年11月成立以來一直致力于應(yīng)對的關(guān)鍵挑戰(zhàn)之一。Sony AI以日本、美國和歐洲三地為據(jù)點,重點推進游戲、成像、傳感三個AI旗艦項目。Sony AI全球負責(zé)人北野弘明還曾放言:“到2050年,要讓 AI 憑自己的科研成果拿下諾貝爾獎!”而今日登上Nature封面的賽車游戲AI,正是Sony AI韜光養(yǎng)晦、籌謀已久的大招!過去兩年間,Sony AI團隊、《GT賽車》系列背后的游戲開發(fā)工作室Polyphony Digital(PDI)以及索尼互動娛樂(SIE)的云游戲團隊密切合作,使用SIE管理的云游戲基礎(chǔ)設(shè)施訓(xùn)練這個AI。

為了盡可能重現(xiàn)現(xiàn)實世界的賽車環(huán)境,PDI為PlayStation 4創(chuàng)建了超現(xiàn)實主義驅(qū)動模擬器GT Sport,并提供API訪問。GT Sport配備了一些最新的汽車動力學(xué)模擬,逼真地還原了賽車、賽道乃至空氣阻力、輪胎摩擦等物理現(xiàn)象,并在汽車制造商的指導(dǎo)下嚴(yán)扣從車身曲線、車身面板間隙到大燈形狀等每個細節(jié)。該模擬器是與國際汽聯(lián)合作設(shè)計的,在全球擁有超過40萬人的電子競技社區(qū),它帶來了一個具有明確規(guī)則和判斷標(biāo)準(zhǔn)的公平賽車環(huán)境。

GT Sophy即是在這個終極模擬環(huán)境中訓(xùn)練而出,同樣,分布式訓(xùn)練平臺DART也對于該AI新成果功不可沒?;谶@個定制平臺,Sony AI研究人員能在SIE云游戲平臺的PlayStation 4控制臺上訓(xùn)練GT Sophy。DART允許研究人員輕松指定實驗,在云資源可用時自動運行,并收集可以在瀏覽器中查看的數(shù)據(jù)。此外,該平臺還管理PlayStation 4控制臺、代理計算資源和GPU,用于跨數(shù)據(jù)中心的訓(xùn)練。它能訪問1000多個PlayStation 4控制臺,每個都用于收集訓(xùn)練GT Sophy的數(shù)據(jù)或評估訓(xùn)練有素的版本。該平臺由必要的計算組件(GPU、CPU)組成,用于與大量PlayStation 4進行交互,并支持長時間的大規(guī)模訓(xùn)練。

DART使得Sony AI的研究團隊能夠同時無縫運行數(shù)百個實驗,并探索將GT Sophy提升到更高水平的技術(shù)。在這些基礎(chǔ)設(shè)施的支持下,僅在一兩天內(nèi),GT Sophy就做到超過GT Sport中約95%的選手。經(jīng)過10天、總計45000小時的駕駛學(xué)習(xí),GT Sophy在所有三條賽道上取得了超人般的計時賽表現(xiàn)。為了驗證這個賽車游戲AI的實力,研究人員讓GT Sophy在2021年7月2日和10月21日舉行的“2021賽車挑戰(zhàn)賽”中,與世界上最優(yōu)秀的四名GT賽車手同臺競技,并成功超過這些頂級人類選手。

02.頂級賽車游戲AI是怎樣煉成的?

為了打造出超強賽車游戲AI,Sony AI研究人員和工程師開發(fā)了創(chuàng)新的強化學(xué)習(xí)技術(shù),包括一種名為Quantitile-Regression Soft Actor-Critic(QR-SAC)的新訓(xùn)練算法、一種可以理解的賽車規(guī)則編碼,以及一種促進獲得細微的賽車技能的訓(xùn)練方案。深度強化學(xué)習(xí)是街機游戲、國際象棋、圍棋等復(fù)雜策略游戲及其他實時多人策略游戲中大多數(shù)AI里程碑的關(guān)鍵組成部分,特別適合開發(fā)游戲AI智能體,因為強化學(xué)習(xí)智能體會考慮其行為的長期影響,并能在學(xué)習(xí)期間獨立收集自己的數(shù)據(jù),從而避免了對復(fù)雜、手工編碼的行為規(guī)則的需求。而處理《GT賽車》等復(fù)雜領(lǐng)域,需要同樣復(fù)雜和微妙的算法、獎勵和訓(xùn)練場景。

AI從多個《GT賽車》游戲中獲取信息,通過最大化快速跑圈的獎勵和最小化碰撞的懲罰等方式來學(xué)會如何取勝。比如,如果它超過另一輛車就會獲得一定權(quán)重的獎勵,但出現(xiàn)抄近路、碰撞、打滑等事故則受到懲罰。GT Sophy在《GT賽車》的三種汽車和賽道組合上接受了多種場景的訓(xùn)練。其中一些只有AI智能體在賽道上,而另一些則增加了7個正常游戲的NPC對手。每次賽道位置、起始速度、汽車之間的間距以及對手的技能水平都是隨機的。

通過持續(xù)學(xué)習(xí)和積累經(jīng)驗,GT Sophy掌握了賽車控制、賽車戰(zhàn)術(shù)和賽車禮儀的技能。(1)賽車控制:賽車本質(zhì)上是試圖駕駛處于控制邊緣或行駛更遠地方的汽車。估計制動點、找到最佳路線、尋找抓地力以最大限度地提高速度和控制力等,本身就是非常有趣的機器學(xué)習(xí)問題。一種新的算法QR-SAC明確推理了GT Sophy高速行動的各種可能結(jié)果。解釋駕駛動作的后果和其中的不確定性,有助于GT Sophy在車體極限上通過彎道,并在與不同類型的對手比賽時考慮復(fù)雜的可能性。我們來看一個展示GT Sophy極限駕駛技能的例子,在沒有接觸的情況下,智能體可駕駛通過一系列緊貼墻壁的彎道行駛。

(2)賽車戰(zhàn)術(shù):車手需能在高速變化的賽車情況下快速做出決策,到線路超過對手,同時考慮到對手對超車嘗試的反應(yīng)。雖然AI智能體可以收集自己的數(shù)據(jù),但訓(xùn)練尾流超車(slipstream passing)等特定技能需要對手處于特定位置。為了解決這個問題,GT Sophy的學(xué)習(xí)包括使用在每條賽道上可能至關(guān)重要的人工比賽情況進行混合場景訓(xùn)練,以及幫助智能體學(xué)習(xí)這些技能的專門對手。這些技能培養(yǎng)場景幫助GT Sophy獲得了專業(yè)的賽車技術(shù),包括處理擁擠的起跑、彈弓式尾流超車,甚至防御機動。

GT Sophy利用急轉(zhuǎn)彎成功超車人類賽車手

(3)賽車禮儀:車手需要遵守具體規(guī)則,以限定賽車可以滑出賽道的程度,以及在發(fā)生碰撞時誰應(yīng)該背責(zé)。與此同時,車手需要積極開車才能獲勝,找到正確的平衡是一大挑戰(zhàn)。為了幫助GT Sophy學(xué)習(xí)運動禮儀,Sony AI研究人員找到了將成文和不成本比賽規(guī)則編碼為復(fù)雜獎勵功能的方法。研究團隊還發(fā)現(xiàn),有必要平衡對手的數(shù)量,以確保GT Sophy有競爭性的訓(xùn)練比賽,同時不會對人類競爭變得過于激進或膽怯。例如,GT Sophy在不堵塞駕駛線路的情況下超過了人類車手,給他們留下了足夠的機動空間,展示出公平和體育精神。

這些特性,使得GT Sophy與此前在一些經(jīng)典游戲中擊敗人類冠軍的早期AI智能體區(qū)分開來。國際象棋、圍棋等屬于完全信息類游戲,AI無需掌握現(xiàn)實世界的物理,只需專注于游戲策略。即便是玩星際爭霸的AlphaStar和Dota的OpenAI Five,也沒有試圖掌握現(xiàn)實世界的物理學(xué)。而現(xiàn)在,GT賽車就在試圖模擬現(xiàn)實世界,因此其戰(zhàn)術(shù)、策略和禮儀都至關(guān)重要,更難的是,AI需要在汽車在物理極限加速時具備這些技能。

03.還能應(yīng)用于機器人、無人機和自動駕駛

就像其他打敗人類冠軍的AI一樣,GT Sophy的價值可不僅局限于玩游戲。在GT Sophy的開發(fā)過程中,研究人員定期與頂級驅(qū)動程序互動,以測試最新版本。“索菲的賽車路線是人類車手永遠想不到的?!薄禛T賽車》的創(chuàng)造者、現(xiàn)實生活中的賽車手Kazunori Yamauchi說,這項技術(shù)將成為其未來版本游戲的一部分,并有望幫助新手和專業(yè)司機提高他們的技能?!拔艺J(rèn)為很多關(guān)于駕駛技能的教科書都將被重寫。”GT Sophy也帶給了頂級人類車手新的靈感。FIA Gran Turismo錦標(biāo)賽2018年冠軍Igor Fraga稱贊說:“GT Sophy向我們展示了我們之前從未想象過的新可能性?!壁A得電子競技賽車賽事前所未有“三冠王”的日本頂級選手Takuma Miyazono,從4歲就開始玩虛擬賽車,但他從未遇到過像GT Sophy這樣的賽車手?!癝ophy非常快,圈速比最好的車手的預(yù)期要好?!彼J(rèn)為,看到Sophy,有些動作才成可能。FIA Gran Turismo錦標(biāo)賽2020年世界決賽選手Emily Jones亦受到GT Sophy的啟發(fā),她在Dragon Trail上的圈速是107.964秒,而AI的圈速是106.417秒。

Emily Jones

“在某些彎道上,我把車開得很大,然后倒車,而AI則把車開得很近,所以我學(xué)到了很多關(guān)于線路的知識。還知道該優(yōu)先考慮什么。以進入第1個彎道為例,我剎車的時間比AI晚,但AI會比我有一個更好的出口,并在下個彎道打敗我。直到我看到AI,我才意識到這一點,并認(rèn)為「好吧,我應(yīng)該這么做?!埂盓mily Jones說。更重要的是,這一研究突破將引發(fā)一場關(guān)于無人駕駛汽車使用的最佳計算方法的辯論。Sony AI全球負責(zé)人北野宏明談道,GT Sophy的目的不僅是超越人類玩家,而是為玩家提供一個具有刺激性的對手,加速并提升玩家的技術(shù)和創(chuàng)造力。為GT Sophy開發(fā)的AI算法可能也適用于無人機、機器人等其他類型的機器?!俺藶橛螒蛏鐓^(qū)做出貢獻外,我們相信這一突破也為自動賽車、自動駕駛、高速機器人和控制等領(lǐng)域帶來了新的機遇。”北野宏明說。

Sony AI CEO北野宏明

豐田研究所人類中心駕駛研究高級經(jīng)理阿維納什·巴拉昌德拉(Avinash Balachandra)認(rèn)為:“在賽車中使用機器學(xué)習(xí)和自動控制是令人興奮的?!痹撗芯克跍y試能夠在極端速度下運行的自動駕駛汽車。他說,豐田正在研究“人類放大技術(shù),利用專家從賽車運動中學(xué)習(xí)的技術(shù),有朝一日可以改善主動安全系統(tǒng)”。馬薩諸塞大學(xué)阿姆赫斯特分校研究強化學(xué)習(xí)的教授布魯諾·卡斯特羅·達席爾瓦(Bruno Castro da Silva)評價GT Sophy是“一項令人印象深刻的成就”,是朝著為自動駕駛汽車訓(xùn)練AI邁出的重要一步。但他認(rèn)為,從《GT賽車》到現(xiàn)實世界將是一個挑戰(zhàn),因為像GT Sophy這樣的強化學(xué)習(xí)算法很難考慮決策的長期影響,而且也很難保證這些算法的安全性或可靠性?!叭绻覀兿M@樣的AI系統(tǒng)在現(xiàn)實生活中部署,安全保障是最重要的。”da Silva說,“缺乏安全保障,是基于機器學(xué)習(xí)的機器人尚未廣泛應(yīng)用于工廠和倉庫的主要原因之一?!?/p>

04.結(jié)語:AI與游戲玩家的雙重勝利

在評價這一研究進展時,索尼集團董事長、總裁兼CEO吉田憲一郎說:“索尼的宗旨是「通過創(chuàng)造力和技術(shù)的力量,讓世界充滿情感」,而GT Sophy就是這一理念的完美體現(xiàn)?!笨傮w來看,賽車游戲AI不僅展現(xiàn)了AI如何學(xué)習(xí)在復(fù)雜情況下工作策略的技術(shù)進展,也展示出AI如何為玩家提供新的游戲體驗。據(jù)悉,Sony AI和PDI將探索如何將GT Sophy集成到《GT賽車》系列的未來版本中。Polyphony Digital總裁Kazunori Yamauchi相信,這一AI概念將促進游戲和汽車的未來。

來源:Sony AI,Nature,Ars Technica,Wired

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

索尼

4.4k
  • 因《星鳴特攻》失利,索尼關(guān)停Firewalk工作室
  • 索尼互娛:30周年限定版PS5將于10月17日開啟預(yù)購

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

AI玩賽車游戲登上Nature封面,擊敗人類冠軍

索尼AI上演“速度與激情”:不僅智商超群,還懂體育精神。

編譯 | 智東西 ZeR0

編輯 | 漠影

新的索尼大法來了!智東西2月10日報道,今日,索尼AI部門Sony AI重磅宣布,其AI程序擊敗了世界上最頂級的賽車游戲選手,并登上國際學(xué)術(shù)頂刊Nature的封面。

論文鏈接:https://www.nature.com/articles/s41586-021-04357-7

這是繼AI在撲克、象棋、圍棋、星際爭霸、DOTA等游戲擊敗人類冠軍選手后,游戲AI實現(xiàn)的又一里程碑。作為全球首個能夠在高度擬真賽車模擬游戲中戰(zhàn)勝最強人類選手的賽車AI智能體,索尼的賽車游戲AI GT Sophy僅用一兩天磨練戰(zhàn)術(shù)和技巧,就做到了超過賽車模擬游戲《GT賽車》中可以擊敗95%的人類玩家。在訓(xùn)練總計45000小時后,這個AI程序已經(jīng)能與頂級GT賽車玩家一較高下。

相比此前AI已經(jīng)掌握的棋牌類游戲及部分多人策略游戲,《GT賽車》更加復(fù)雜,因為它高度模擬現(xiàn)實世界,每輛車、每條軌道都經(jīng)過建模,視覺、音頻以及動態(tài)方面全部盡可能地還原現(xiàn)實世界的駕駛體驗。這使得AI必須具備極強的持續(xù)判斷和快速反應(yīng)能力,在高速變動的條件下,綜合考量摩擦、空氣動力學(xué)、駕駛路線、速度、方向等各種因素,在距離對手幾英寸的范圍內(nèi),對具有復(fù)雜非線性動力學(xué)的車輛進行實時控制,并知道如何在不違規(guī)的前提下超越對手。“在一場正面競賽中如此超越杰出的人類車手,是AI領(lǐng)域的一項里程碑式成就?!惫餐牡乃固垢4髮W(xué)汽車研究中心聯(lián)席主任克里斯·格迪斯(Chris Gerdes)教授相信,用于開發(fā)該AI的技術(shù)有望在自動駕駛汽車軟件中發(fā)揮作用。

GitHub鏈接:https://sonyai.github.io/gt_sophy_public/

01.比玩星際爭霸更強的智能體,精通控制、戰(zhàn)術(shù)和禮儀

GT Sophy研究項目啟動于2020年4月,是一個使用新型深度強化學(xué)習(xí)平臺進行訓(xùn)練的自主AI智能體,也是Sony AI自2019年11月成立以來一直致力于應(yīng)對的關(guān)鍵挑戰(zhàn)之一。Sony AI以日本、美國和歐洲三地為據(jù)點,重點推進游戲、成像、傳感三個AI旗艦項目。Sony AI全球負責(zé)人北野弘明還曾放言:“到2050年,要讓 AI 憑自己的科研成果拿下諾貝爾獎!”而今日登上Nature封面的賽車游戲AI,正是Sony AI韜光養(yǎng)晦、籌謀已久的大招!過去兩年間,Sony AI團隊、《GT賽車》系列背后的游戲開發(fā)工作室Polyphony Digital(PDI)以及索尼互動娛樂(SIE)的云游戲團隊密切合作,使用SIE管理的云游戲基礎(chǔ)設(shè)施訓(xùn)練這個AI。

為了盡可能重現(xiàn)現(xiàn)實世界的賽車環(huán)境,PDI為PlayStation 4創(chuàng)建了超現(xiàn)實主義驅(qū)動模擬器GT Sport,并提供API訪問。GT Sport配備了一些最新的汽車動力學(xué)模擬,逼真地還原了賽車、賽道乃至空氣阻力、輪胎摩擦等物理現(xiàn)象,并在汽車制造商的指導(dǎo)下嚴(yán)扣從車身曲線、車身面板間隙到大燈形狀等每個細節(jié)。該模擬器是與國際汽聯(lián)合作設(shè)計的,在全球擁有超過40萬人的電子競技社區(qū),它帶來了一個具有明確規(guī)則和判斷標(biāo)準(zhǔn)的公平賽車環(huán)境。

GT Sophy即是在這個終極模擬環(huán)境中訓(xùn)練而出,同樣,分布式訓(xùn)練平臺DART也對于該AI新成果功不可沒。基于這個定制平臺,Sony AI研究人員能在SIE云游戲平臺的PlayStation 4控制臺上訓(xùn)練GT Sophy。DART允許研究人員輕松指定實驗,在云資源可用時自動運行,并收集可以在瀏覽器中查看的數(shù)據(jù)。此外,該平臺還管理PlayStation 4控制臺、代理計算資源和GPU,用于跨數(shù)據(jù)中心的訓(xùn)練。它能訪問1000多個PlayStation 4控制臺,每個都用于收集訓(xùn)練GT Sophy的數(shù)據(jù)或評估訓(xùn)練有素的版本。該平臺由必要的計算組件(GPU、CPU)組成,用于與大量PlayStation 4進行交互,并支持長時間的大規(guī)模訓(xùn)練。

DART使得Sony AI的研究團隊能夠同時無縫運行數(shù)百個實驗,并探索將GT Sophy提升到更高水平的技術(shù)。在這些基礎(chǔ)設(shè)施的支持下,僅在一兩天內(nèi),GT Sophy就做到超過GT Sport中約95%的選手。經(jīng)過10天、總計45000小時的駕駛學(xué)習(xí),GT Sophy在所有三條賽道上取得了超人般的計時賽表現(xiàn)。為了驗證這個賽車游戲AI的實力,研究人員讓GT Sophy在2021年7月2日和10月21日舉行的“2021賽車挑戰(zhàn)賽”中,與世界上最優(yōu)秀的四名GT賽車手同臺競技,并成功超過這些頂級人類選手。

02.頂級賽車游戲AI是怎樣煉成的?

為了打造出超強賽車游戲AI,Sony AI研究人員和工程師開發(fā)了創(chuàng)新的強化學(xué)習(xí)技術(shù),包括一種名為Quantitile-Regression Soft Actor-Critic(QR-SAC)的新訓(xùn)練算法、一種可以理解的賽車規(guī)則編碼,以及一種促進獲得細微的賽車技能的訓(xùn)練方案。深度強化學(xué)習(xí)是街機游戲、國際象棋、圍棋等復(fù)雜策略游戲及其他實時多人策略游戲中大多數(shù)AI里程碑的關(guān)鍵組成部分,特別適合開發(fā)游戲AI智能體,因為強化學(xué)習(xí)智能體會考慮其行為的長期影響,并能在學(xué)習(xí)期間獨立收集自己的數(shù)據(jù),從而避免了對復(fù)雜、手工編碼的行為規(guī)則的需求。而處理《GT賽車》等復(fù)雜領(lǐng)域,需要同樣復(fù)雜和微妙的算法、獎勵和訓(xùn)練場景。

AI從多個《GT賽車》游戲中獲取信息,通過最大化快速跑圈的獎勵和最小化碰撞的懲罰等方式來學(xué)會如何取勝。比如,如果它超過另一輛車就會獲得一定權(quán)重的獎勵,但出現(xiàn)抄近路、碰撞、打滑等事故則受到懲罰。GT Sophy在《GT賽車》的三種汽車和賽道組合上接受了多種場景的訓(xùn)練。其中一些只有AI智能體在賽道上,而另一些則增加了7個正常游戲的NPC對手。每次賽道位置、起始速度、汽車之間的間距以及對手的技能水平都是隨機的。

通過持續(xù)學(xué)習(xí)和積累經(jīng)驗,GT Sophy掌握了賽車控制、賽車戰(zhàn)術(shù)和賽車禮儀的技能。(1)賽車控制:賽車本質(zhì)上是試圖駕駛處于控制邊緣或行駛更遠地方的汽車。估計制動點、找到最佳路線、尋找抓地力以最大限度地提高速度和控制力等,本身就是非常有趣的機器學(xué)習(xí)問題。一種新的算法QR-SAC明確推理了GT Sophy高速行動的各種可能結(jié)果。解釋駕駛動作的后果和其中的不確定性,有助于GT Sophy在車體極限上通過彎道,并在與不同類型的對手比賽時考慮復(fù)雜的可能性。我們來看一個展示GT Sophy極限駕駛技能的例子,在沒有接觸的情況下,智能體可駕駛通過一系列緊貼墻壁的彎道行駛。

(2)賽車戰(zhàn)術(shù):車手需能在高速變化的賽車情況下快速做出決策,到線路超過對手,同時考慮到對手對超車嘗試的反應(yīng)。雖然AI智能體可以收集自己的數(shù)據(jù),但訓(xùn)練尾流超車(slipstream passing)等特定技能需要對手處于特定位置。為了解決這個問題,GT Sophy的學(xué)習(xí)包括使用在每條賽道上可能至關(guān)重要的人工比賽情況進行混合場景訓(xùn)練,以及幫助智能體學(xué)習(xí)這些技能的專門對手。這些技能培養(yǎng)場景幫助GT Sophy獲得了專業(yè)的賽車技術(shù),包括處理擁擠的起跑、彈弓式尾流超車,甚至防御機動。

GT Sophy利用急轉(zhuǎn)彎成功超車人類賽車手

(3)賽車禮儀:車手需要遵守具體規(guī)則,以限定賽車可以滑出賽道的程度,以及在發(fā)生碰撞時誰應(yīng)該背責(zé)。與此同時,車手需要積極開車才能獲勝,找到正確的平衡是一大挑戰(zhàn)。為了幫助GT Sophy學(xué)習(xí)運動禮儀,Sony AI研究人員找到了將成文和不成本比賽規(guī)則編碼為復(fù)雜獎勵功能的方法。研究團隊還發(fā)現(xiàn),有必要平衡對手的數(shù)量,以確保GT Sophy有競爭性的訓(xùn)練比賽,同時不會對人類競爭變得過于激進或膽怯。例如,GT Sophy在不堵塞駕駛線路的情況下超過了人類車手,給他們留下了足夠的機動空間,展示出公平和體育精神。

這些特性,使得GT Sophy與此前在一些經(jīng)典游戲中擊敗人類冠軍的早期AI智能體區(qū)分開來。國際象棋、圍棋等屬于完全信息類游戲,AI無需掌握現(xiàn)實世界的物理,只需專注于游戲策略。即便是玩星際爭霸的AlphaStar和Dota的OpenAI Five,也沒有試圖掌握現(xiàn)實世界的物理學(xué)。而現(xiàn)在,GT賽車就在試圖模擬現(xiàn)實世界,因此其戰(zhàn)術(shù)、策略和禮儀都至關(guān)重要,更難的是,AI需要在汽車在物理極限加速時具備這些技能。

03.還能應(yīng)用于機器人、無人機和自動駕駛

就像其他打敗人類冠軍的AI一樣,GT Sophy的價值可不僅局限于玩游戲。在GT Sophy的開發(fā)過程中,研究人員定期與頂級驅(qū)動程序互動,以測試最新版本?!八鞣频馁愜嚶肪€是人類車手永遠想不到的?!薄禛T賽車》的創(chuàng)造者、現(xiàn)實生活中的賽車手Kazunori Yamauchi說,這項技術(shù)將成為其未來版本游戲的一部分,并有望幫助新手和專業(yè)司機提高他們的技能?!拔艺J(rèn)為很多關(guān)于駕駛技能的教科書都將被重寫?!盙T Sophy也帶給了頂級人類車手新的靈感。FIA Gran Turismo錦標(biāo)賽2018年冠軍Igor Fraga稱贊說:“GT Sophy向我們展示了我們之前從未想象過的新可能性。”贏得電子競技賽車賽事前所未有“三冠王”的日本頂級選手Takuma Miyazono,從4歲就開始玩虛擬賽車,但他從未遇到過像GT Sophy這樣的賽車手。“Sophy非??欤λ俦茸詈玫能囀值念A(yù)期要好。”他認(rèn)為,看到Sophy,有些動作才成可能。FIA Gran Turismo錦標(biāo)賽2020年世界決賽選手Emily Jones亦受到GT Sophy的啟發(fā),她在Dragon Trail上的圈速是107.964秒,而AI的圈速是106.417秒。

Emily Jones

“在某些彎道上,我把車開得很大,然后倒車,而AI則把車開得很近,所以我學(xué)到了很多關(guān)于線路的知識。還知道該優(yōu)先考慮什么。以進入第1個彎道為例,我剎車的時間比AI晚,但AI會比我有一個更好的出口,并在下個彎道打敗我。直到我看到AI,我才意識到這一點,并認(rèn)為「好吧,我應(yīng)該這么做。」”Emily Jones說。更重要的是,這一研究突破將引發(fā)一場關(guān)于無人駕駛汽車使用的最佳計算方法的辯論。Sony AI全球負責(zé)人北野宏明談道,GT Sophy的目的不僅是超越人類玩家,而是為玩家提供一個具有刺激性的對手,加速并提升玩家的技術(shù)和創(chuàng)造力。為GT Sophy開發(fā)的AI算法可能也適用于無人機、機器人等其他類型的機器。“除了為游戲社區(qū)做出貢獻外,我們相信這一突破也為自動賽車、自動駕駛、高速機器人和控制等領(lǐng)域帶來了新的機遇。”北野宏明說。

Sony AI CEO北野宏明

豐田研究所人類中心駕駛研究高級經(jīng)理阿維納什·巴拉昌德拉(Avinash Balachandra)認(rèn)為:“在賽車中使用機器學(xué)習(xí)和自動控制是令人興奮的。”該研究所正在測試能夠在極端速度下運行的自動駕駛汽車。他說,豐田正在研究“人類放大技術(shù),利用專家從賽車運動中學(xué)習(xí)的技術(shù),有朝一日可以改善主動安全系統(tǒng)”。馬薩諸塞大學(xué)阿姆赫斯特分校研究強化學(xué)習(xí)的教授布魯諾·卡斯特羅·達席爾瓦(Bruno Castro da Silva)評價GT Sophy是“一項令人印象深刻的成就”,是朝著為自動駕駛汽車訓(xùn)練AI邁出的重要一步。但他認(rèn)為,從《GT賽車》到現(xiàn)實世界將是一個挑戰(zhàn),因為像GT Sophy這樣的強化學(xué)習(xí)算法很難考慮決策的長期影響,而且也很難保證這些算法的安全性或可靠性。“如果我們希望這樣的AI系統(tǒng)在現(xiàn)實生活中部署,安全保障是最重要的?!眃a Silva說,“缺乏安全保障,是基于機器學(xué)習(xí)的機器人尚未廣泛應(yīng)用于工廠和倉庫的主要原因之一?!?/p>

04.結(jié)語:AI與游戲玩家的雙重勝利

在評價這一研究進展時,索尼集團董事長、總裁兼CEO吉田憲一郎說:“索尼的宗旨是「通過創(chuàng)造力和技術(shù)的力量,讓世界充滿情感」,而GT Sophy就是這一理念的完美體現(xiàn)。”總體來看,賽車游戲AI不僅展現(xiàn)了AI如何學(xué)習(xí)在復(fù)雜情況下工作策略的技術(shù)進展,也展示出AI如何為玩家提供新的游戲體驗。據(jù)悉,Sony AI和PDI將探索如何將GT Sophy集成到《GT賽車》系列的未來版本中。Polyphony Digital總裁Kazunori Yamauchi相信,這一AI概念將促進游戲和汽車的未來。

來源:Sony AI,Nature,Ars Technica,Wired

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。