正在閱讀:

谷歌將大模型塞進機器人,干活更麻利,還能聽懂“話外音”

掃一掃下載界面新聞APP

谷歌將大模型塞進機器人,干活更麻利,還能聽懂“話外音”

距離通用機器人時代更近一步。

文|智東西 ZeR0

編輯|漠影

谷歌正試圖訓練出更像人類的機器人。

智東西8月17日報道,谷歌剛剛公布一項重磅研究進展:通過結合更強大的人工智能(AI)大型語言模型,進一步提高機器人的“智商”。

研究人員表示,這是第一次將大型語言模型集成到機器人中,“是一種非常不同的范式”。

就像人類一樣,機器人能響應完整的命令。換句話說,你不再需要像以前那樣分步地發(fā)出一連串簡短指令,一步一步指導機器人的每個動作。

谷歌研究人員做了個演示,對機器人說:“我餓了,你能給我點零食嗎?”

接著,機器人在自助餐廳中搜索一番,然后打開一個抽屜,找到一袋薯片并將它拿給研究人員。

當然了,拿汽水也是不在話下。

▲機器人演示拿起物品的能力

這是一項雄心勃勃的技術突破,為多用途機器人鋪平了道路,使其像以往的掃地機器人、巡邏機器人等單一任務機器人一樣易于控制。

谷歌在本周二發(fā)布的博文中,詳細介紹了這項研究進展,通過結合更復雜的語言模型,機器人執(zhí)行命令的成功率從61%提高至74%。

用大模型提高理解能力,讓機器人不再是“鐵憨憨”

指揮機器人干活不是什么新奇的事,但要讓機器人能夠理解你的命令背后的意圖,那就要考驗它的“大腦”好不好用了。

比如,當你問機器人:“我把飲料灑了,你能幫忙嗎?”谷歌機器人可以迅速篩出適配指令的合適行動,然后從廚房拿塊清潔海綿來。

但假如你只是驚呼:“完蛋!我的飲料!”那么常見的機器人通常毫無反應,這時候,如果有一個智能機器人聽出你的話外音,主動幫你清潔,那它才是真正聰明的機器人。

這些看似簡單的感知技能,實際上是最具計算挑戰(zhàn)性的任務類型。

以前,機器人系統(tǒng)只能執(zhí)行簡短、明確的指令,例如“拿起一個蘋果”、“往前走兩步”。

機器人往往在明確具體的任務和獎勵下表現(xiàn)最好,但在學習執(zhí)行多步驟任務和推理抽象的、模棱兩可的指令方面遇到困難。

比如,你問機器人:“我剛剛鍛煉過,可以給我拿一份健康的零食?”機器人可能很難理解這句話里的細微表達差別和微妙之處。

雖然近年來大型語言模型進展飛速,取得許多令人印象深刻的結果,很多語言模型在特定領域的知識儲備已經(jīng)遠超人類,但很多語言模型的訓練并沒有基于物理世界的數(shù)據(jù),通常不會跟環(huán)境產(chǎn)生直接交互,也不會觀察其響應的結果。

這可能導致語言模型生成的指令,會讓在現(xiàn)實環(huán)境中運行的機器人做出不合邏輯、不切實際或者不安全的行動。

我們還用剛才提到的問題舉例,問機器人:“我把飲料灑了,你能幫忙嗎?”

經(jīng)典的OpenAI大模型GPT-3會提供一個建議:“您可以嘗試使用真空吸塵器。”

谷歌AI系統(tǒng)LaMDA會回答:“您想讓我?guī)兔φ覀€清潔工具嗎?”

另一個谷歌FLAN語言模型則會直接道歉:“對不起,我不是故意的?!边@顯然是個沒用的回應。

因此,谷歌研究人員提出設想,有沒有一種有效的方法,能夠?qū)⒏呒壵Z言模型的語言理解能力和機器人系統(tǒng)擅長的處理感知和交互能力相結合,同時利用兩者的優(yōu)勢?

這就是谷歌正與谷歌母公司Alphabet的機器人子公司Everyday Robots合作研發(fā)的新方法——PaLM-SayCan。

用語言模型做“大腦”,機器人充當“手”與“眼”

谷歌研究人員稱,將PaLM-SayCan集成到機器人中后,機器人通過使用思維鏈提示和執(zhí)行請求所需的分步解決方案,能更好地執(zhí)行復雜、抽象的任務,根據(jù)自身能力權衡接下來最合適的執(zhí)行步驟,并實現(xiàn)高度可解釋的行動結果。

“我們發(fā)現(xiàn)它(機器人)甚至能處理16個步驟的指令。”研究人員說。

引入PaLM-SayCan后,語言模型可以幫助機器人更好地理解運用到高級語義知識、需要進行推理的指令,使其與人類、與物理環(huán)境的互動更自然。反過來,機器人可以充當語言模型的手和眼,通過與真實環(huán)境的不斷交互為語言模型提供更多的經(jīng)驗。

具體是怎么做的呢?

PaLM-SayCan方法使用PaLM語言模型(Say)中包含的知識來確定和評估對高級指令有效的動作,它還用到Affordance功能(Can),來支持現(xiàn)實世界并確定在給定環(huán)境下可執(zhí)行哪些操作。

這個系統(tǒng)可以看作是用戶和機器人之間的對話平臺。用戶首先發(fā)出一個指令,語言模型將其拆解成方便機器人執(zhí)行的一系列明確步驟。

然后,機器人對這些步驟進行篩選,通過評估確定在其當前狀態(tài)和環(huán)境下最可行的行動計劃,從而完成相應任務。

該模型通過將兩個概率相乘,來確定特定技能成功學習的概率:一是task-grounding,即技能語言描述;二是world-grounding,即當前技能的可行性。

由于PaLM-SayCan方法擁有較好的可解釋性,用戶可以通過查看單獨的語言和可視性分數(shù),來輕松理解決策過程。

灑了飲料,機器人幫忙清理分幾步?

如可視化界面所示,PaLM-SayCan執(zhí)行復雜任務的行為是可解釋的,這將使機器人的交互過程更加安全可控。

比如當你灑了飲料,請求機器人幫忙時,你可以看到它是如何做出決定,為執(zhí)行任務選擇最合適的步驟的:找到可樂罐,拾起可樂罐,走到垃圾桶旁邊,放下可樂罐,找到一塊海綿,拾起海綿,走向桌子,放下海綿……

藍色顯示的是語音模型分數(shù),即語言模型判斷技能有用的概率;紅色是affordance分數(shù),即系統(tǒng)成功執(zhí)行技能的可能性;綠色顯示的是用于最終決定執(zhí)行技能的綜合分數(shù)。

PaLM-SayCan方法將語言模型的概率和價值函數(shù)(VF)的概率相結合,以選擇下一個要執(zhí)行的技能,重復這個過程,直至高級指令成功完成。

研究人員使用基于圖像的行為克隆(BC)來訓練語言條件策略和基于時間差異(TD)的強化學習方法來訓練價值函數(shù)。

智能體技能庫中,訓練策略和價值函數(shù)的每個技能都會被定義為一個具有簡短語言描述的策略,用嵌入表示,以及一個指示從機器人當前狀態(tài)完成技能概率的affordance函數(shù)。

為了學習affordance函數(shù),研究人員使用稀疏獎勵函數(shù),設置為1.0表示成功執(zhí)行,0.0表示未成功。

訓練策略方面,研究人員從10個機器人在11個月內(nèi)執(zhí)行的68000次演示中收集了數(shù)據(jù),并從一組自主學習的策略片段中篩選了12000次成功的片段,然后在Everyday Robots模擬器用使用MT-Opt學習語言條件值函數(shù),通過使用演示來引導模擬策略的性能,以提供初步成功,再通過模擬中的在線數(shù)據(jù)收集來持續(xù)改進強化學習性能。

走向通用機器人時代

為了測試其方法,研究人員使用了與PaLM配對的Everyday Robots機器人,將機器人放在有各種常見物體的廚房環(huán)境中,用101條指令對其進行測試。

這些指令不是簡單的命令式查詢,而是涵蓋了語言常有的歧義性和復雜性。

研究人員用兩個指標來評估系統(tǒng)的性能:(1)規(guī)劃成功率,表示機器人是否為指令選擇了正確的技能;(2)執(zhí)行成功率,表示機器人是否成功執(zhí)行了指令。

他們比較了PaLM和FLAN兩種谷歌大型語言模型、有和沒有affordance grounding以及直接使用自然語言運行的底層策略。

結果顯示,使用帶有affordance grounding的PaLM(即谷歌PaLM-SayCan)系統(tǒng)在84%的時間內(nèi)選擇了正確的技能序列,并在74%的時間內(nèi)成功執(zhí)行這些技能序列。

▲當與PaLM結合使用時,SayCan展示了101條測試指令中84%的成功規(guī)劃

與FLAN以及沒有robotic grounding的PaLM相比,PaLM-SayCan的錯誤減少了50%。同時,相較此前的FLAN-SayCan方法,PaLM-SayCan的執(zhí)行成功率提升了13%。

“這特別令人興奮,因為它代表著我們第一次可以看到語言模型的進步如何轉(zhuǎn)化為機器人技術的類似改進?!惫雀柩芯咳藛T在技術博客中寫道。

研究人員相信,這項研究將推動從執(zhí)行簡短、明確的制定命令的工業(yè)機器人,過渡到可以處理更復雜和抽象命令的通用機器人時代。

不過由于谷歌沒有公開101個命令的完整列表,所以這些命令是否覆蓋家庭機器人所需理解的絕大部分語言廣度和復雜性,還不好下定論。

谷歌研究人員還開源了一個機器人模擬設置,希望提供寶貴資源用于將機器人學習與高級語言模型相結合的未來研究。

GitHub鏈接:http://say-can.github.io/

未來,他們希望更好地了解利用機器人的真實世界經(jīng)驗獲得的信息來改進語言模型,以及自然語言在多大程度上是編程機器人的正確本體。

科技巨頭對機器人研發(fā)興趣濃厚

谷歌母公司Alphabet對研發(fā)機器人布局已久。

2013年,谷歌一連收購了幾家知名機器人公司,包括機器人領域“最出圈”的波士頓動力。不過后來波士頓動力幾經(jīng)轉(zhuǎn)手,先是被谷歌賣給日本電信和科技投資巨頭軟銀,后來又被軟銀賣給了韓國汽車巨頭現(xiàn)代。

此前Everyday Robotics打造的機器人已經(jīng)在谷歌內(nèi)部執(zhí)行一些簡單任務,比如送零食、倒垃圾、擦拭柜臺。

Everyday Robotics項目仍處于起步階段,機器人行動比較緩慢,做事也沒那么果斷靈巧。不過隨著這些機器人借助谷歌大型語言模型提高理解能力,它們將進一步提高執(zhí)行力。

除了谷歌外,多家大型科技公司都對機器人技術展現(xiàn)出濃厚的興趣。

一個典型的代表是美國電商巨頭亞馬遜,它在倉庫中使用了許多機器人,并且正在試驗無人機送貨。這個月初,亞馬遜還宣布計劃以17億美元收購掃地機器人鼻祖iRobot,此次收購也將成為亞馬遜史上第四大巨額收購交易。

就在上周,國內(nèi)智能手機制造商小米公布了其研發(fā)的人形機器人“鐵大”,去年它還推出了一款機器狗“鐵蛋”。

除此之外,美國電動車龍頭特斯拉也在研發(fā)通用機器人,并將在9月30日發(fā)布其首款人形機器人“擎天柱”原型機。

據(jù)特斯拉創(chuàng)始人兼CEO馬斯克透露,“擎天柱”將是一款非常友好的機器人,能替代人類執(zhí)行一些從事危險、重復、無聊的任務,包括拿扳手給特斯拉電動車裝螺絲,或者幫人類買菜、做飯、照顧老人,而且未來其成本比汽車還要便宜。

▲特斯拉“擎天柱”的部分參數(shù)

結語:距離高智能機器人,還有很長的路要走

多年來,用AI技術訓練機器人屢有突破,但大的進展仍然緩慢。而引入語言模型的方法,或許可以幫助機器人進一步提高解決復雜問題的能力,從而替代人類從事更多重復性勞動。

谷歌的這一探索,展示了機器人技術與大型語言模型進步結合的更多可能性。

目前真正大范圍滲透進人們?nèi)粘I羁臻g的家庭機器人,僅有清潔機器人這個品類,但在AI、激光雷達等技術的輔助下,隨著機器人提高視覺、導航等技能,更多新型機器人將進入家庭場景。

當然,迄今的機器人研發(fā),距離我們想象的十項全能“機器人管家”,還有很長的路要走。

語言模型固然可以為機器人提供更好的步驟規(guī)劃評估和選擇,但它們還做不到事無巨細地提供所有信息,比如不能告訴機器人打開冰箱時應施加多大的力。谷歌研究人員也暫時沒有將PaLM-SayCan商業(yè)化的計劃。

圍繞機器人創(chuàng)新技術及商業(yè)化落地成果,智東西將在明日舉行的2022世界機器人博覽會現(xiàn)場發(fā)來更多一線觀察報道,歡迎關注。

本文為轉(zhuǎn)載內(nèi)容,授權事宜請聯(lián)系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

谷歌將大模型塞進機器人,干活更麻利,還能聽懂“話外音”

距離通用機器人時代更近一步。

文|智東西 ZeR0

編輯|漠影

谷歌正試圖訓練出更像人類的機器人。

智東西8月17日報道,谷歌剛剛公布一項重磅研究進展:通過結合更強大的人工智能(AI)大型語言模型,進一步提高機器人的“智商”。

研究人員表示,這是第一次將大型語言模型集成到機器人中,“是一種非常不同的范式”。

就像人類一樣,機器人能響應完整的命令。換句話說,你不再需要像以前那樣分步地發(fā)出一連串簡短指令,一步一步指導機器人的每個動作。

谷歌研究人員做了個演示,對機器人說:“我餓了,你能給我點零食嗎?”

接著,機器人在自助餐廳中搜索一番,然后打開一個抽屜,找到一袋薯片并將它拿給研究人員。

當然了,拿汽水也是不在話下。

▲機器人演示拿起物品的能力

這是一項雄心勃勃的技術突破,為多用途機器人鋪平了道路,使其像以往的掃地機器人、巡邏機器人等單一任務機器人一樣易于控制。

谷歌在本周二發(fā)布的博文中,詳細介紹了這項研究進展,通過結合更復雜的語言模型,機器人執(zhí)行命令的成功率從61%提高至74%。

用大模型提高理解能力,讓機器人不再是“鐵憨憨”

指揮機器人干活不是什么新奇的事,但要讓機器人能夠理解你的命令背后的意圖,那就要考驗它的“大腦”好不好用了。

比如,當你問機器人:“我把飲料灑了,你能幫忙嗎?”谷歌機器人可以迅速篩出適配指令的合適行動,然后從廚房拿塊清潔海綿來。

但假如你只是驚呼:“完蛋!我的飲料!”那么常見的機器人通常毫無反應,這時候,如果有一個智能機器人聽出你的話外音,主動幫你清潔,那它才是真正聰明的機器人。

這些看似簡單的感知技能,實際上是最具計算挑戰(zhàn)性的任務類型。

以前,機器人系統(tǒng)只能執(zhí)行簡短、明確的指令,例如“拿起一個蘋果”、“往前走兩步”。

機器人往往在明確具體的任務和獎勵下表現(xiàn)最好,但在學習執(zhí)行多步驟任務和推理抽象的、模棱兩可的指令方面遇到困難。

比如,你問機器人:“我剛剛鍛煉過,可以給我拿一份健康的零食?”機器人可能很難理解這句話里的細微表達差別和微妙之處。

雖然近年來大型語言模型進展飛速,取得許多令人印象深刻的結果,很多語言模型在特定領域的知識儲備已經(jīng)遠超人類,但很多語言模型的訓練并沒有基于物理世界的數(shù)據(jù),通常不會跟環(huán)境產(chǎn)生直接交互,也不會觀察其響應的結果。

這可能導致語言模型生成的指令,會讓在現(xiàn)實環(huán)境中運行的機器人做出不合邏輯、不切實際或者不安全的行動。

我們還用剛才提到的問題舉例,問機器人:“我把飲料灑了,你能幫忙嗎?”

經(jīng)典的OpenAI大模型GPT-3會提供一個建議:“您可以嘗試使用真空吸塵器?!?/p>

谷歌AI系統(tǒng)LaMDA會回答:“您想讓我?guī)兔φ覀€清潔工具嗎?”

另一個谷歌FLAN語言模型則會直接道歉:“對不起,我不是故意的。”這顯然是個沒用的回應。

因此,谷歌研究人員提出設想,有沒有一種有效的方法,能夠?qū)⒏呒壵Z言模型的語言理解能力和機器人系統(tǒng)擅長的處理感知和交互能力相結合,同時利用兩者的優(yōu)勢?

這就是谷歌正與谷歌母公司Alphabet的機器人子公司Everyday Robots合作研發(fā)的新方法——PaLM-SayCan。

用語言模型做“大腦”,機器人充當“手”與“眼”

谷歌研究人員稱,將PaLM-SayCan集成到機器人中后,機器人通過使用思維鏈提示和執(zhí)行請求所需的分步解決方案,能更好地執(zhí)行復雜、抽象的任務,根據(jù)自身能力權衡接下來最合適的執(zhí)行步驟,并實現(xiàn)高度可解釋的行動結果。

“我們發(fā)現(xiàn)它(機器人)甚至能處理16個步驟的指令?!毖芯咳藛T說。

引入PaLM-SayCan后,語言模型可以幫助機器人更好地理解運用到高級語義知識、需要進行推理的指令,使其與人類、與物理環(huán)境的互動更自然。反過來,機器人可以充當語言模型的手和眼,通過與真實環(huán)境的不斷交互為語言模型提供更多的經(jīng)驗。

具體是怎么做的呢?

PaLM-SayCan方法使用PaLM語言模型(Say)中包含的知識來確定和評估對高級指令有效的動作,它還用到Affordance功能(Can),來支持現(xiàn)實世界并確定在給定環(huán)境下可執(zhí)行哪些操作。

這個系統(tǒng)可以看作是用戶和機器人之間的對話平臺。用戶首先發(fā)出一個指令,語言模型將其拆解成方便機器人執(zhí)行的一系列明確步驟。

然后,機器人對這些步驟進行篩選,通過評估確定在其當前狀態(tài)和環(huán)境下最可行的行動計劃,從而完成相應任務。

該模型通過將兩個概率相乘,來確定特定技能成功學習的概率:一是task-grounding,即技能語言描述;二是world-grounding,即當前技能的可行性。

由于PaLM-SayCan方法擁有較好的可解釋性,用戶可以通過查看單獨的語言和可視性分數(shù),來輕松理解決策過程。

灑了飲料,機器人幫忙清理分幾步?

如可視化界面所示,PaLM-SayCan執(zhí)行復雜任務的行為是可解釋的,這將使機器人的交互過程更加安全可控。

比如當你灑了飲料,請求機器人幫忙時,你可以看到它是如何做出決定,為執(zhí)行任務選擇最合適的步驟的:找到可樂罐,拾起可樂罐,走到垃圾桶旁邊,放下可樂罐,找到一塊海綿,拾起海綿,走向桌子,放下海綿……

藍色顯示的是語音模型分數(shù),即語言模型判斷技能有用的概率;紅色是affordance分數(shù),即系統(tǒng)成功執(zhí)行技能的可能性;綠色顯示的是用于最終決定執(zhí)行技能的綜合分數(shù)。

PaLM-SayCan方法將語言模型的概率和價值函數(shù)(VF)的概率相結合,以選擇下一個要執(zhí)行的技能,重復這個過程,直至高級指令成功完成。

研究人員使用基于圖像的行為克?。˙C)來訓練語言條件策略和基于時間差異(TD)的強化學習方法來訓練價值函數(shù)。

智能體技能庫中,訓練策略和價值函數(shù)的每個技能都會被定義為一個具有簡短語言描述的策略,用嵌入表示,以及一個指示從機器人當前狀態(tài)完成技能概率的affordance函數(shù)。

為了學習affordance函數(shù),研究人員使用稀疏獎勵函數(shù),設置為1.0表示成功執(zhí)行,0.0表示未成功。

訓練策略方面,研究人員從10個機器人在11個月內(nèi)執(zhí)行的68000次演示中收集了數(shù)據(jù),并從一組自主學習的策略片段中篩選了12000次成功的片段,然后在Everyday Robots模擬器用使用MT-Opt學習語言條件值函數(shù),通過使用演示來引導模擬策略的性能,以提供初步成功,再通過模擬中的在線數(shù)據(jù)收集來持續(xù)改進強化學習性能。

走向通用機器人時代

為了測試其方法,研究人員使用了與PaLM配對的Everyday Robots機器人,將機器人放在有各種常見物體的廚房環(huán)境中,用101條指令對其進行測試。

這些指令不是簡單的命令式查詢,而是涵蓋了語言常有的歧義性和復雜性。

研究人員用兩個指標來評估系統(tǒng)的性能:(1)規(guī)劃成功率,表示機器人是否為指令選擇了正確的技能;(2)執(zhí)行成功率,表示機器人是否成功執(zhí)行了指令。

他們比較了PaLM和FLAN兩種谷歌大型語言模型、有和沒有affordance grounding以及直接使用自然語言運行的底層策略。

結果顯示,使用帶有affordance grounding的PaLM(即谷歌PaLM-SayCan)系統(tǒng)在84%的時間內(nèi)選擇了正確的技能序列,并在74%的時間內(nèi)成功執(zhí)行這些技能序列。

▲當與PaLM結合使用時,SayCan展示了101條測試指令中84%的成功規(guī)劃

與FLAN以及沒有robotic grounding的PaLM相比,PaLM-SayCan的錯誤減少了50%。同時,相較此前的FLAN-SayCan方法,PaLM-SayCan的執(zhí)行成功率提升了13%。

“這特別令人興奮,因為它代表著我們第一次可以看到語言模型的進步如何轉(zhuǎn)化為機器人技術的類似改進?!惫雀柩芯咳藛T在技術博客中寫道。

研究人員相信,這項研究將推動從執(zhí)行簡短、明確的制定命令的工業(yè)機器人,過渡到可以處理更復雜和抽象命令的通用機器人時代。

不過由于谷歌沒有公開101個命令的完整列表,所以這些命令是否覆蓋家庭機器人所需理解的絕大部分語言廣度和復雜性,還不好下定論。

谷歌研究人員還開源了一個機器人模擬設置,希望提供寶貴資源用于將機器人學習與高級語言模型相結合的未來研究。

GitHub鏈接:http://say-can.github.io/

未來,他們希望更好地了解利用機器人的真實世界經(jīng)驗獲得的信息來改進語言模型,以及自然語言在多大程度上是編程機器人的正確本體。

科技巨頭對機器人研發(fā)興趣濃厚

谷歌母公司Alphabet對研發(fā)機器人布局已久。

2013年,谷歌一連收購了幾家知名機器人公司,包括機器人領域“最出圈”的波士頓動力。不過后來波士頓動力幾經(jīng)轉(zhuǎn)手,先是被谷歌賣給日本電信和科技投資巨頭軟銀,后來又被軟銀賣給了韓國汽車巨頭現(xiàn)代。

此前Everyday Robotics打造的機器人已經(jīng)在谷歌內(nèi)部執(zhí)行一些簡單任務,比如送零食、倒垃圾、擦拭柜臺。

Everyday Robotics項目仍處于起步階段,機器人行動比較緩慢,做事也沒那么果斷靈巧。不過隨著這些機器人借助谷歌大型語言模型提高理解能力,它們將進一步提高執(zhí)行力。

除了谷歌外,多家大型科技公司都對機器人技術展現(xiàn)出濃厚的興趣。

一個典型的代表是美國電商巨頭亞馬遜,它在倉庫中使用了許多機器人,并且正在試驗無人機送貨。這個月初,亞馬遜還宣布計劃以17億美元收購掃地機器人鼻祖iRobot,此次收購也將成為亞馬遜史上第四大巨額收購交易。

就在上周,國內(nèi)智能手機制造商小米公布了其研發(fā)的人形機器人“鐵大”,去年它還推出了一款機器狗“鐵蛋”。

除此之外,美國電動車龍頭特斯拉也在研發(fā)通用機器人,并將在9月30日發(fā)布其首款人形機器人“擎天柱”原型機。

據(jù)特斯拉創(chuàng)始人兼CEO馬斯克透露,“擎天柱”將是一款非常友好的機器人,能替代人類執(zhí)行一些從事危險、重復、無聊的任務,包括拿扳手給特斯拉電動車裝螺絲,或者幫人類買菜、做飯、照顧老人,而且未來其成本比汽車還要便宜。

▲特斯拉“擎天柱”的部分參數(shù)

結語:距離高智能機器人,還有很長的路要走

多年來,用AI技術訓練機器人屢有突破,但大的進展仍然緩慢。而引入語言模型的方法,或許可以幫助機器人進一步提高解決復雜問題的能力,從而替代人類從事更多重復性勞動。

谷歌的這一探索,展示了機器人技術與大型語言模型進步結合的更多可能性。

目前真正大范圍滲透進人們?nèi)粘I羁臻g的家庭機器人,僅有清潔機器人這個品類,但在AI、激光雷達等技術的輔助下,隨著機器人提高視覺、導航等技能,更多新型機器人將進入家庭場景。

當然,迄今的機器人研發(fā),距離我們想象的十項全能“機器人管家”,還有很長的路要走。

語言模型固然可以為機器人提供更好的步驟規(guī)劃評估和選擇,但它們還做不到事無巨細地提供所有信息,比如不能告訴機器人打開冰箱時應施加多大的力。谷歌研究人員也暫時沒有將PaLM-SayCan商業(yè)化的計劃。

圍繞機器人創(chuàng)新技術及商業(yè)化落地成果,智東西將在明日舉行的2022世界機器人博覽會現(xiàn)場發(fā)來更多一線觀察報道,歡迎關注。

本文為轉(zhuǎn)載內(nèi)容,授權事宜請聯(lián)系原著作權人。