japanese国产高清麻豆,久久99精品麻豆国产

文 | 極智GeeTech

在1927年上映的《大都會》中，全世界第一部包含人形機器人的角色Maria誕生。

時隔60多年，人形機器人從電影走向現(xiàn)實。2000年，本田的ASIMO成為世界上最著名的人形機器人之一，它能夠行走、跑步甚至進行簡單的交流。如今，人形機器人浪潮正全面席卷而來。

2024年，在大模型的加持下，一個足夠性感的故事正在展開：長出“大腦”的人形機器人與科幻電影中通用機器人之間的差距正在縮短。在今年世界機器人大會上，27款人形機器人齊聚亮相，創(chuàng)歷屆之最。

作為人形機器人的內(nèi)核，具身智能站在大模型和自動駕駛的臂膀上，其商業(yè)化進程要比預(yù)期來得更快。故事的書寫者們，已在具身智能領(lǐng)域內(nèi)掀起一場諸神之戰(zhàn)。

具身智能 vs 自動駕駛

對于具身智能，并沒有一個嚴格的官方定義，其通常是指本體與智能體的結(jié)合，本體實現(xiàn)與物理環(huán)境的交互，感知環(huán)境做出行動，智能體通過環(huán)境信息持續(xù)學(xué)習(xí)賦予智慧，是包含人工智能、機器人本體、認知科學(xué)、神經(jīng)科學(xué)等多學(xué)科交叉的系統(tǒng)。

2024年5月，英國自動駕駛獨角獸Wayve完成了10.5億美元C輪融資，這不僅是英國史上最大規(guī)模的AI融資，也是迄今為止全球排名前20名的AI融資之一。值得注意的是，Wayve聯(lián)合創(chuàng)始人兼CEO在完成融資當(dāng)天寫下這樣一句話：“具身智能注定會成為最具價值的AI應(yīng)用，未來還可能會改變我們與科技的交互方式?！?/p>

令人好奇的是，為什么一家自動駕駛公司要在融資當(dāng)天提到具身智能，甚至還極為看好？

有人說，自動駕駛的存在是取代司機，具身智能的存在是要替代整個人類。當(dāng)然，這只是跟隨如今互聯(lián)網(wǎng)風(fēng)格的一種狹隘理解。自動駕駛與具身智能的真正相似之處是，從技術(shù)到底層邏輯的相似。而一種更好的理解則是，既然2024是自動駕駛的商業(yè)化元年，那么同樣地，它也見證了具身智能的“元年”。

根據(jù)全球頂級對沖基金Coatue發(fā)布的一篇關(guān)于“具身智能”的報告《The Path to General-Purpose Robots》（通往通用機器人之路），如果將具身智能的階段與自動駕駛的階段做類比，“過去無人駕駛汽車從L1到L2花了大約20年，而從L2到現(xiàn)在的L4只用了不到10年；那么人型機器人從L1到L2用了大約50年，從L2到L4預(yù)計只需要不到5年?！?/p>

業(yè)界普遍認為，人形是機器人領(lǐng)域形態(tài)發(fā)展的最終目標，如果用自動駕駛的等級類比，即擁有高智能水平的人形機器人是L4。

與智能汽車類似，具身智能的實現(xiàn)包括“感知、決策、控制”三個主要環(huán)節(jié)，并需要內(nèi)外部通信傳輸?shù)闹С帧?/p>

感知是具身智能交互世界的窗口，首先要通過環(huán)境傳感器、運動傳感器收集環(huán)境與自身狀態(tài)信息，作為決策環(huán)節(jié)的依據(jù)；其次，要根據(jù)感知的信息以及任務(wù)目標，對自身行為進行規(guī)劃決策，并向控制模塊發(fā)出指令；之后，將決策指令轉(zhuǎn)化為實際操作，實現(xiàn)與物理世界的互動；傳輸方面則強調(diào)低時延、多連接、連續(xù)性能力。

從商業(yè)化的角度來看，具身智能與自動駕駛的發(fā)展路徑也或有高度擬合。以L2、L4區(qū)分，具身智能時代的人形機器人可以分為2種路徑：一種是在L2級別下逐步孵化出衍生的商業(yè)化產(chǎn)品，并且機器人的軀體形態(tài)也逐漸從輪式、足式、雙臂、到全身等等；而另一種則是L4級的打法，企業(yè)從一開始就只做人形機器人，直接求解最難的問題。通過大規(guī)模融資來穿越技術(shù)的發(fā)展周期。

自動駕駛的商業(yè)化有三類機會：首先是車本身，即L4自動駕駛技術(shù)的機會；其次是應(yīng)用場景，即L2級別自動駕駛的機遇；最后是傳感器、毫米波、智能座艙等供應(yīng)鏈技術(shù)。

清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）院長張亞勤認為，無人駕駛將是未來五年內(nèi)最大的物理（具身）智能應(yīng)用，并且有望成為第一個通過“新圖靈測試”的具身智能系統(tǒng)。2025年將成為無人駕駛的“ChatGPT 時刻”，2030年無人駕駛成為主流，預(yù)計有10%的新車具備L4級別的自動駕駛能力。

對具身智能來說，機器人從局部到全身整體的蛻變過程，也會帶來三類機遇。

首先是機器人本體的開發(fā)，企業(yè)若有條件在初期就推出人形，自然能搶奪市場先機，讓后來者很難分一杯羹。

其次是場景機會，目前機器人的應(yīng)用場景相對較少，但這也為行業(yè)提供了探索和發(fā)展的空間。

第三是產(chǎn)業(yè)上下游的機遇，上游包括智算中心的建設(shè)、算力芯片和端側(cè)模型等賦能機器人的關(guān)鍵技術(shù)；下游則涉及到各種傳感器、關(guān)節(jié)模組，它們相當(dāng)于機器人的感官系統(tǒng)，包括視覺、觸覺和運動感知等等。

很顯然，在具身智能中，“上難度”的人形機器人代表著需要穿越周期的L4，甚至是L5。

“大腦+小腦”，大模型實現(xiàn)具身智能

從馬斯克到AI知名學(xué)者李飛飛，從英偉達、OpenAI甚至到國內(nèi)幾乎所有科技大廠，全部紛紛涌入具身智能賽道，一致看好這個如今AI大模型加持下的機器人產(chǎn)業(yè)。

今年，人形機器人行業(yè)在具身智能領(lǐng)域取得了顯著的突破，基于通用大模型、數(shù)據(jù)集、高效計算架構(gòu)、多模態(tài)融合感知等關(guān)鍵技術(shù)，為人形機器人安上聰明的“大腦”，使得人形機器人具備認知和決策能力，推動人形機器人走向?qū)嵱秒A段。

從大模型角度看，從最初的大語言模型（LLM），逐步邁向圖像-語言模型（VLM）乃至圖像-語言-動作多模態(tài)模型（VLA），這一轉(zhuǎn)變不僅意味著機器人將擁有更加豐富的信息處理能力，更預(yù)示著它們將能夠跨越語言與視覺的界限，實現(xiàn)更為復(fù)雜、靈活的交互方式。在這樣的技術(shù)背景下，人形機器人正朝著具身智能的終極目標邁進。

“具身”特點使具身智能大模型與通用大模型存在顯著差異。傳統(tǒng)具身智能的研究以深度學(xué)習(xí)范式為主流，通過模仿學(xué)習(xí)或強化學(xué)習(xí)技術(shù)訓(xùn)練具身系統(tǒng)，使其習(xí)得技能。但傳統(tǒng)深度學(xué)習(xí)算法對數(shù)據(jù)集的依賴程度較高、遷移泛化能力較弱，對于訓(xùn)練數(shù)據(jù)以外的技能執(zhí)行起來較為困難。

大模型的出現(xiàn)為邁向通用人工智能提供契機。自谷歌Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)發(fā)布以來，眾多研究者發(fā)現(xiàn)基于Transformer的預(yù)訓(xùn)練語言模型在非語言類的任務(wù)中也能取得不錯的效果，具有較強的泛化能力。此后大模型被引入具身智能領(lǐng)域，例如谷歌在2023年發(fā)布的PaLM-E模型，即是基于Transformer神經(jīng)網(wǎng)絡(luò)開發(fā)的具身多模態(tài)大語言模型。

相較通用大模型，具身智能大模型需要更多地考慮感知的細度與廣度、與環(huán)境的交互性以及控制的協(xié)調(diào)性。

具身智能系統(tǒng)不僅要能夠準確地識別物體的類別和屬性，還要將視覺信息轉(zhuǎn)化為精確的空間坐標，以供機械臂、靈巧手等部位執(zhí)行精細操作和關(guān)節(jié)控制。

同時，除文本、圖像、音頻、視頻等較為常見的模態(tài)數(shù)據(jù)外，具身智能還需要接收觸覺（如力的反饋、表面材質(zhì)）、姿態(tài)（如空間坐標、位移距離、旋轉(zhuǎn)角度）等信息，以實現(xiàn)對環(huán)境更全面和準確的理解。

具身智能算法也需要理解物體的運動軌跡、事件的發(fā)展順序，才能做出及時而準確的決策。

環(huán)境交互是具身智能區(qū)別于其他有實體機器人的重要特征，通過與環(huán)境的交互，持續(xù)學(xué)習(xí)并更新知識，從而不斷提升算法性能。

目前，人形機器人廠商主要采用分層端到端的方案，即通過“大腦大模型”和“小腦大模型”互相配合完成任務(wù)。

“大腦大模型”大多基于多模態(tài)通用大模型，完成對任務(wù)的感知規(guī)劃，再通過API調(diào)度“小腦大模型”驅(qū)動關(guān)節(jié)硬件完成執(zhí)行。

例如優(yōu)必選人形機器人Walker S接入百度文心大模型；智元機器人與科大訊飛簽署合作戰(zhàn)略協(xié)議，依托訊飛星火大模型進行聯(lián)合開發(fā)；樂聚機器人夸父搭載的是華為盤古大模型。

在“小腦大模型”方面，在技能應(yīng)用上，智元機器人推出了通用的位姿估計模型UniPose、通用的抓取模型UniGrasp，通用的力控插拔模型UniPlug等一系列通用原子能力模型，可以配合大語言模型框架去做任務(wù)編排，使得機器人相比傳統(tǒng)協(xié)作機器人更容易部署，且具備一定的泛化能力。

優(yōu)必選則從應(yīng)用場景出發(fā)，集合了工業(yè)場景垂域大模型技術(shù)、計算機視覺感知、語義VSLAM導(dǎo)航、學(xué)習(xí)型全身運動控制、多模態(tài)人機交互等人形機器人全棧式技術(shù)，將人形機器人引入汽車產(chǎn)線的智能搬運、質(zhì)量檢查和化學(xué)品操作等工位，推動人形機器人在汽車工廠的大規(guī)模應(yīng)用。

值得注意的是，特斯拉Optimus使用完全端到端的神經(jīng)網(wǎng)絡(luò)大模型，借助傳感器和計算機視覺技術(shù)，利用海量數(shù)據(jù)不斷優(yōu)化訓(xùn)練過程，直接生成關(guān)節(jié)控制序列。

在“小腦”操作大模型領(lǐng)域，各大廠商剛剛起步，多技術(shù)路徑同步發(fā)展。操作大模型決定了人形機器人在任務(wù)執(zhí)行側(cè)的準確度，是大規(guī)模商業(yè)應(yīng)用場景落地的前提。

數(shù)據(jù)成為第一大瓶頸

業(yè)內(nèi)普遍認為，缺乏規(guī)模龐大且高質(zhì)量數(shù)據(jù)是具身智能的發(fā)展難題之一。由于訓(xùn)練機器人所需的物理數(shù)據(jù)不如文本數(shù)據(jù)量大且易獲得，相較于圖文大模型千億規(guī)模的數(shù)據(jù)訓(xùn)練量，目前機器人數(shù)據(jù)集量遠不能滿足機器人達到通用大模型的需求。

目前，解決人形機器人訓(xùn)練數(shù)據(jù)短缺的問題，一方面通過強化學(xué)習(xí)算法提高模型訓(xùn)練效率，一方面則通過仿真平臺合成數(shù)據(jù)，建立數(shù)據(jù)開放生態(tài)。

數(shù)據(jù)對于訓(xùn)練人形機器人具有至關(guān)重要的作用，它直接影響到機器人的感知能力、思考和決策能力以及行動執(zhí)行能力。大模型通過大量數(shù)據(jù)學(xué)習(xí)，讓機器人理解任務(wù)意圖，并遷移到下游任務(wù)中，高質(zhì)量訓(xùn)練數(shù)據(jù)能夠有效提升人形機器人場景泛化能力。

在解決高質(zhì)量具身智能數(shù)據(jù)不足的問題上，可以通過模擬環(huán)境合成數(shù)據(jù)輔助真實世界數(shù)據(jù)以豐富訓(xùn)練數(shù)據(jù)來源，還可以構(gòu)建更大規(guī)模、更多模態(tài)的共享數(shù)據(jù)集。

使用仿真及合成數(shù)據(jù)能夠降低數(shù)據(jù)收集成本并提高開發(fā)效率。合成數(shù)據(jù)的常見來源是借助大量符合現(xiàn)實世界物理規(guī)則的虛擬仿真場景學(xué)習(xí)技能和策略，后遷移到真實世界。與真實采集數(shù)據(jù)相比，基于仿真環(huán)境的合成數(shù)據(jù)具有采集成本低、采集速度快、可擴展性強、標注準確度高的優(yōu)點。

共建高質(zhì)量開源數(shù)據(jù)集，可以實現(xiàn)數(shù)據(jù)最大化利用。由于數(shù)據(jù)獲取的高成本、長周期以及隱私安全問題，大部分具身智能研究組織和企業(yè)僅限于在某個特定環(huán)境中收集數(shù)據(jù)，數(shù)據(jù)共享的缺乏導(dǎo)致重復(fù)勞動和資源浪費，形成“數(shù)據(jù)孤島”。

2023年，DeepMind與眾多科研機構(gòu)展開合作，構(gòu)建了真實機器人開源數(shù)據(jù)集Open X-Embodiment，包含22個機器人超過100萬個軌跡片段、500多項技能、16多萬項任務(wù)?；诖碎_源數(shù)據(jù)集訓(xùn)練的具身智能控制基礎(chǔ)模型RT-X，表現(xiàn)出在跨場景、多任務(wù)應(yīng)用中超越此前基于特定場景和數(shù)據(jù)集下的技能水平。

具身智能行至爆發(fā)前夜

從1973 年早稻田大學(xué)開發(fā)的世界上第一款人形機器人WABOT-1，到特斯拉的人形機器人Optimus、Figure AI的Figure 02，機器人的移動能力、操作能力、交互能力已經(jīng)發(fā)生了巨大的變化，過去兩年，多模態(tài)大模型的加持，讓機器人借著具身智能的快速發(fā)展進入了一個新的階段。

2023年，行業(yè)新品迭出不窮，特斯拉、Figure AI，以及宇樹、智元、傅利葉等一批國產(chǎn)品牌集中在2023年推出首款人形機器人產(chǎn)品，銀河通用、加速進化、星動紀元等廠商紛紛成立，促成行業(yè)新品迭出的欣欣向榮之象。

行至2024年，優(yōu)必選、Apptronik、特斯拉、Figure AI等公司開始陸續(xù)與汽車主機廠展開合作，將人形機器人落地汽車制造場景，初探商業(yè)化可能。

不過，目前絕大部分具身智能公司還處于不斷迭代的Demo階段，何時能夠?qū)a(chǎn)品與某一場景很好地結(jié)合并商業(yè)化落地，是行業(yè)關(guān)心的重點問題。

根據(jù)中金研究院及研究部聯(lián)合研究發(fā)布的《AI經(jīng)濟學(xué)》報告，從任務(wù)角度看，人形機器人“具身”的特點使其尤其適合力量型、靈巧型及空間移動導(dǎo)航等體力任務(wù)，例如上下料、維修、巡檢等。同時，其“智能體”特征使其具備人的智能與情感，能夠在教培輔導(dǎo)、服務(wù)接待、人文關(guān)懷等支持型任務(wù)中發(fā)揮作用，例如教育、講解導(dǎo)引、養(yǎng)老助殘等。

大部分行業(yè)都是由多類任務(wù)組合而成的，如果向終局去看，人形機器人有望在各個行業(yè)找到適合自身落地的應(yīng)用場景。比如，服務(wù)業(yè)前臺（營業(yè)部客戶接待）、采礦業(yè)（物料挖掘搬運）、水電熱氣（電力巡檢）、看護養(yǎng)老業(yè)（康養(yǎng)陪護）、裝備制造業(yè)（工業(yè)制造）、醫(yī)療衛(wèi)生業(yè)（手術(shù)機器人）、住宿和餐飲業(yè)（餐飲服務(wù)機器人）等等，不一而足。

可以說，人形機器人的滲透不會一蹴而就，隨著技術(shù)不斷成熟，人形機器人不僅能夠有更自然的交互性能，實現(xiàn)在交互要求更高的公共服務(wù)場景以及個人家用場景中的應(yīng)用，還能提升對復(fù)雜場景的應(yīng)對能力，進而開啟在高危、救援、多變環(huán)境下的滲透。總體趨勢是由專用場景向通用場景漸次滲透，最終實現(xiàn)在全行業(yè)各場景的落地。

具身智能時代的機器人，最終會擁有什么樣的形態(tài)？這個問題的背后，歸根結(jié)底是人類創(chuàng)造者對機器人的想象力。而無論是怎樣的想象，可預(yù)見的未來機器人或許都有類似的含義：一個在視覺、學(xué)習(xí)、決策等多維度擁有更高智能水平的機器人。

一個新的物種，正在硬件與智能的交互中誕生。

文 | 極智GeeTech

在1927年上映的《大都會》中，全世界第一部包含人形機器人的角色Maria誕生。

具身智能 vs 自動駕駛

令人好奇的是，為什么一家自動駕駛公司要在融資當(dāng)天提到具身智能，甚至還極為看好？

業(yè)界普遍認為，人形是機器人領(lǐng)域形態(tài)發(fā)展的最終目標，如果用自動駕駛的等級類比，即擁有高智能水平的人形機器人是L4。

與智能汽車類似，具身智能的實現(xiàn)包括“感知、決策、控制”三個主要環(huán)節(jié)，并需要內(nèi)外部通信傳輸?shù)闹С帧?/p>

對具身智能來說，機器人從局部到全身整體的蛻變過程，也會帶來三類機遇。

首先是機器人本體的開發(fā)，企業(yè)若有條件在初期就推出人形，自然能搶奪市場先機，讓后來者很難分一杯羹。

其次是場景機會，目前機器人的應(yīng)用場景相對較少，但這也為行業(yè)提供了探索和發(fā)展的空間。

很顯然，在具身智能中，“上難度”的人形機器人代表著需要穿越周期的L4，甚至是L5。

“大腦+小腦”，大模型實現(xiàn)具身智能

相較通用大模型，具身智能大模型需要更多地考慮感知的細度與廣度、與環(huán)境的交互性以及控制的協(xié)調(diào)性。

具身智能算法也需要理解物體的運動軌跡、事件的發(fā)展順序，才能做出及時而準確的決策。

目前，人形機器人廠商主要采用分層端到端的方案，即通過“大腦大模型”和“小腦大模型”互相配合完成任務(wù)。

數(shù)據(jù)成為第一大瓶頸

2023年，DeepMind與眾多科研機構(gòu)展開合作，構(gòu)建了真實機器人開源數(shù)據(jù)集Open X-Embodiment，包含22個機器人超過100萬個軌跡片段、500多項技能、16多萬項任務(wù)。基于此開源數(shù)據(jù)集訓(xùn)練的具身智能控制基礎(chǔ)模型RT-X，表現(xiàn)出在跨場景、多任務(wù)應(yīng)用中超越此前基于特定場景和數(shù)據(jù)集下的技能水平。

具身智能行至爆發(fā)前夜

可以說，人形機器人的滲透不會一蹴而就，隨著技術(shù)不斷成熟，人形機器人不僅能夠有更自然的交互性能，實現(xiàn)在交互要求更高的公共服務(wù)場景以及個人家用場景中的應(yīng)用，還能提升對復(fù)雜場景的應(yīng)對能力，進而開啟在高危、救援、多變環(huán)境下的滲透?？傮w趨勢是由專用場景向通用場景漸次滲透，最終實現(xiàn)在全行業(yè)各場景的落地。

一個新的物種，正在硬件與智能的交互中誕生。

歷史搜索全部刪除

熱門搜索

具身智能“奇點”將至，商業(yè)化落地還有幾道坎？

具身智能 vs 自動駕駛

“大腦+小腦”，大模型實現(xiàn)具身智能

數(shù)據(jù)成為第一大瓶頸

具身智能行至爆發(fā)前夜

評論

具身智能“奇點”將至，商業(yè)化落地還有幾道坎？

具身智能 vs 自動駕駛

“大腦+小腦”，大模型實現(xiàn)具身智能

數(shù)據(jù)成為第一大瓶頸

具身智能行至爆發(fā)前夜

具身智能“奇點”將至，商業(yè)化落地還有幾道坎？

具身智能 vs 自動駕駛

“大腦+小腦”，大模型實現(xiàn)具身智能

數(shù)據(jù)成為第一大瓶頸

具身智能行至爆發(fā)前夜

評論

具身智能“奇點”將至，商業(yè)化落地還有幾道坎？

具身智能 vs 自動駕駛

“大腦+小腦”，大模型實現(xiàn)具身智能

數(shù)據(jù)成為第一大瓶頸

具身智能行至爆發(fā)前夜

具身智能“奇點”將至，商業(yè)化落地還有幾道坎？

具身智能“奇點”將至，商業(yè)化落地還有幾道坎？

“大腦+小腦”，大模型實現(xiàn)具身智能