文|經(jīng)緯創(chuàng)投
最近,人形機(jī)器人變得非?;馃帷?023世界機(jī)器人大會(huì)近日在北京開幕,人潮涌動(dòng)。同時(shí),宇樹科技、智元機(jī)器人等創(chuàng)業(yè)公司,相繼發(fā)布了自己的人形機(jī)器人,當(dāng)這些站立行走,能跑能跳的機(jī)器人真真切切地出現(xiàn)在人們面前時(shí),把人們的期待推向了最高潮。
機(jī)器人一直是說起來容易,很科幻,但做起來非常難。哪怕是在不少工廠的流水線里,機(jī)器人還是很難適應(yīng)很多復(fù)雜場景。不過自去年底,特斯拉發(fā)布了人形機(jī)器人Optimus(擎天柱)以來,人形機(jī)器人賽道就在逐漸升溫。
那么,為什么人形機(jī)器人火了?現(xiàn)在到技術(shù)爆發(fā)的臨界點(diǎn)了嗎?相比于工業(yè)機(jī)器人(是一個(gè)比較成熟的賽道,更像傳統(tǒng)機(jī)械設(shè)備),這一波大家對(duì)機(jī)器人的想象,與工業(yè)機(jī)器人有什么底層不同?
首先,我們總結(jié)說結(jié)論,人形機(jī)器人賽道之所以變熱,核心是智能泛化能力大幅加強(qiáng),讓通用機(jī)器人成為可能。以前機(jī)器人行業(yè)之所以迭代得很慢,是因?yàn)槊繉W(xué)一套新動(dòng)作,就需要重新編程一次,只是“機(jī)械的自動(dòng)化”。而現(xiàn)在有了智能泛化能力的突破,甚至只需要語音控制,機(jī)器人就能實(shí)現(xiàn)新功能,這是從自動(dòng)化到智能化的底層轉(zhuǎn)變,機(jī)器人的通用性被大大增強(qiáng)。
英國機(jī)器人公司Engineered Arts的人形機(jī)器人Ameca,在接入Stable Diffusion之后,可以完成一些簡筆畫,比如畫一只貓。圖片來源:Engineered Arts
基于這個(gè)認(rèn)知,我們還可以延展出很多新問題:
當(dāng)機(jī)器人觸達(dá)技術(shù)爆發(fā)臨界點(diǎn),更智能的機(jī)器人能用在哪里?
機(jī)器人是否要做成“人形”?
訓(xùn)練數(shù)據(jù)是瓶頸,數(shù)據(jù)還能從哪里來?
今天這篇文章,我們就來探討以上這些問題,不過人形機(jī)器人是一個(gè)高速發(fā)展中的新賽道,很多問題還沒有準(zhǔn)確答案,對(duì)于一些有爭議的部分,歡迎在評(píng)論區(qū)聊聊,Enjoy:
人形機(jī)器人是一個(gè)大賽道,能帶動(dòng)眾多細(xì)分賽道。以特斯拉機(jī)器人Optimus為代表的人形機(jī)器人硬件全景圖。圖片來源:中信證券
01 當(dāng)機(jī)器人觸達(dá)技術(shù)爆發(fā)臨界點(diǎn),更智能的機(jī)器人能用在哪里?
曾經(jīng),機(jī)器人是一個(gè)迭代速度不算太快的領(lǐng)域,現(xiàn)在的汽車工廠里已有很多工業(yè)機(jī)器人,并且有著幾十年的應(yīng)用歷史,但基本都是非通用智能機(jī)器人。
其中的瓶頸在于,像工業(yè)機(jī)器人這樣的非通用智能機(jī)器人(往往只是一個(gè)機(jī)械臂),是在特定場景里做特定任務(wù),各種動(dòng)作和反應(yīng)的算法都是寫定的,一旦遇到新的情況或環(huán)境,如果沒有預(yù)先寫好算法,就會(huì)立即變成“智障”。
如今有可能出現(xiàn)真正的通用機(jī)器人,這也極大擴(kuò)展了機(jī)器人潛在的應(yīng)用場景。以往工業(yè)機(jī)器人只能在流水線的單點(diǎn)上,比如擰好某個(gè)螺絲,或是組裝好某個(gè)部件,但如今有了通用機(jī)器人之后,只需要讓機(jī)器人學(xué)會(huì)安裝邏輯和評(píng)估標(biāo)準(zhǔn)就可以了,并且它不僅可以擰好螺絲,當(dāng)螺絲用完了還可以自己從倉庫里取來,或是給機(jī)器人裝上靈巧手,它就可以使用一些工具,來處理螺絲之外更復(fù)雜的事情。
此外,結(jié)合LLM我們還可以實(shí)現(xiàn)語音控制,只需要說出“請給我拿杯水”,先把語音轉(zhuǎn)換成代碼,再把代碼轉(zhuǎn)換成機(jī)器人的動(dòng)作。這不是影視劇里很遙遠(yuǎn)的事情,而是正在發(fā)生的。今年谷歌發(fā)布了Robotics Transformer-2(RT-2),微軟發(fā)布了“ ChatGPT for Robotics ”論文,給整個(gè)機(jī)器人行業(yè)帶來了轟動(dòng)。
今年的這些新進(jìn)展,與以前“每做一套新動(dòng)作,就需要重新編程一次”的機(jī)器人,有著天壤之別。未來無論是在工廠車間,還是商場、家庭,都很有可能出現(xiàn)一個(gè)通用機(jī)器人,它能適應(yīng)不同的環(huán)節(jié),不需要重新編程就能在不同任務(wù)之間切換自如。
目前,對(duì)于大多數(shù)通用機(jī)器人創(chuàng)業(yè)公司來說,第一目標(biāo)還不是ToC,而是ToB,比如工業(yè)或是商業(yè)場景。先在B端場景中打磨好能力,再最終應(yīng)用到C端,是不少機(jī)器人公司的計(jì)劃。
很多公司都把汽車生產(chǎn)作為首要場景。汽車工廠規(guī)模很大,較早實(shí)現(xiàn)自動(dòng)化,其中很多環(huán)節(jié)已經(jīng)形成流水線用工業(yè)機(jī)器人替代,但仍有不少環(huán)節(jié)需要人工操作。比如在汽車工廠的總裝車間,仍然需要大量人力,人形機(jī)器人可以替代這些環(huán)節(jié),并非替代已經(jīng)通過工業(yè)機(jī)器人實(shí)現(xiàn)自動(dòng)化的環(huán)節(jié)。
如果按照馬斯克的計(jì)劃,特斯拉的第一批機(jī)器人主要在B端應(yīng)用,替代那些危險(xiǎn)、無聊、重復(fù)的工作,或是人們不想做的工作。第二批大規(guī)模使用的機(jī)器人,會(huì)擁有在現(xiàn)實(shí)世界中的導(dǎo)航能力,也是復(fù)用特斯拉電動(dòng)車的視覺導(dǎo)航技術(shù),無需特定指令也能做有用的事;第三批則是10年左右,人們可以在家里使用機(jī)器人。
除了汽車工廠,還有3C的組裝、檢測等環(huán)節(jié);以及在商業(yè)場景中,比如零售業(yè)的貨架管理、清潔等,也仍有需要大量人工的場景。隨著社會(huì)老齡化及人力成本的攀升,將有不小的勞動(dòng)力缺口需要填補(bǔ)。
當(dāng)然,有些場景也并非一定需要人形機(jī)器人,而是根據(jù)需求來選擇。比如宇樹科技創(chuàng)始人兼CEO王興興曾說,四足機(jī)器人與雙足機(jī)器人相比,具備更高的載荷能力和極強(qiáng)的平衡能力,也更易于控制、設(shè)計(jì)和維護(hù),在工業(yè)端和消費(fèi)端等都有廣泛的應(yīng)用場景,尤其能在一些危險(xiǎn)場景代替人類進(jìn)行作業(yè)。
宇樹科技的機(jī)器狗可用于消防。圖片來源:宇樹科技
鴻海、軟銀投資的日本機(jī)器人初創(chuàng)公司Telexistence,可作為商超貨架的補(bǔ)貨機(jī)器人
不過,今天的通用機(jī)器人,離真正商業(yè)化落地還有諸多障礙。最明顯的就是成功率、執(zhí)行速度和精度都還不太夠。比如谷歌的RT-2比起RT-1,執(zhí)行成功率提高到了80%,但在實(shí)機(jī)演示中,還是錯(cuò)誤地識(shí)別了一罐檸檬味蘇打水,說成了“橘子味”;以及被問到桌子上有什么水果時(shí),機(jī)器人回答成“白色”,但實(shí)際是香蕉。谷歌解釋說,因?yàn)閃iFi臨時(shí)中斷,機(jī)器人使用了緩存的答案來回答。雖然80%的準(zhǔn)確率在一些場景夠用,但在另一些需要精度的場景仍然不夠,比如一些精密儀器的操作等等。
當(dāng)然,我們說了這么多具身智能、通用機(jī)器人,也并不是說原來的工業(yè)機(jī)器人領(lǐng)域就沒有機(jī)會(huì)了,只是邏輯不同。在傳統(tǒng)機(jī)械設(shè)備領(lǐng)域,仍有大量機(jī)器人零部件創(chuàng)新,和國產(chǎn)替代的機(jī)會(huì)。比如工業(yè)機(jī)器人的核心零部件減速器,就長期被日本和德國公司壟斷;工業(yè)機(jī)器人整體的國產(chǎn)化率也僅有35%,特別是在大六軸、汽車3C、焊接等工業(yè)機(jī)器人細(xì)分賽道,國產(chǎn)化率都是偏低的,結(jié)合智能化仍然有成長空間與創(chuàng)新潛力。
02 機(jī)器人是否要做成“人形”?
在無數(shù)科幻影視作品中,人形機(jī)器人一直才是人們對(duì)機(jī)器人的終極想象,比起工業(yè)機(jī)器人,人形機(jī)器人是一種更高維的存在。但由于實(shí)現(xiàn)難度太大,一直不是機(jī)器人行業(yè)的主要形態(tài),直到最近1年特斯拉的人形機(jī)器人發(fā)布,才成為市場焦點(diǎn)。
市場也存在很多質(zhì)疑聲:到底我們需不需要人形機(jī)器人?既然難度這么大,到底需要多少年才能在現(xiàn)實(shí)生活中落地?是否應(yīng)該先從機(jī)械狗、多輪底盤+機(jī)械臂等形態(tài)入手,而不是一上來就做人形?
當(dāng)然這個(gè)問題還沒有答案,我們看到谷歌搭載RT-2的機(jī)器人,就是四個(gè)輪子作為底盤+一個(gè)機(jī)械臂,已經(jīng)能實(shí)現(xiàn)很多功能,比如撿起小東西、開窗戶或是垃圾篩選。這種單臂、輪式服務(wù)機(jī)器人不需要靈巧手(利用空心杯電機(jī)實(shí)現(xiàn)的仿人手設(shè)計(jì))、不需要仿人腿的運(yùn)動(dòng)控制系統(tǒng),也能實(shí)現(xiàn)很多家庭、工廠場景的功能。當(dāng)然它也會(huì)有限制,比如不能上下樓梯。
Google的機(jī)器人就是輪式底盤+單臂+攝像頭的形態(tài)。圖片來源:Google Deepmind
當(dāng)然,我們的觀點(diǎn)是人形肯定是終極形態(tài),因?yàn)槲覀兿嘈抛罱K機(jī)器人是會(huì)進(jìn)入千家萬戶的。但根據(jù)不同場景需求,其他形態(tài)的機(jī)器人也會(huì)共存,比如不一定是雙足雙臂,更早到來的可能是輪式單臂。
人形的好處是:首先是應(yīng)用范圍。如果用終局思維來思考,人形機(jī)器人的應(yīng)用范圍肯定是最廣的,因?yàn)槿诵尾攀亲钸m合社會(huì)中所有場景的形態(tài),我們所有的建筑、工具等等,都是基于人類的身形而設(shè)計(jì)的,所以無需改變場景來適應(yīng)機(jī)器人,就能直接使用人類社會(huì)中所有工具。這也符合馬斯克所提出的愿景,他希望今后人類不想干的事全都可以交給機(jī)器人來干,甚至發(fā)掘出目前我們還預(yù)料不到的用途。
比如最典型的,就是人類的腿和手,在仿生步態(tài)下,機(jī)器人的運(yùn)動(dòng)能力比傳統(tǒng)履帶、四輪、雙輪機(jī)器人都有大幅提升,機(jī)器人可以上下樓,可以跳躍過障礙物等等。對(duì)于手來說,基于空心杯電機(jī)的靈巧手,可以實(shí)現(xiàn)雙手配合和工具替換,這比起傳統(tǒng)的工業(yè)機(jī)器人,能用更廣泛的人類工具,技能更廣。
特斯拉使用空心杯電機(jī)設(shè)計(jì)的靈巧手。圖片來源:東吳證券
其次如果考慮交互,“人形”才能傳遞出的肢體語言、面部表情等等信息。比如在梅拉賓法則中,心理學(xué)家就在強(qiáng)調(diào)肢體語言的作用。肢體語言也最符合人類的認(rèn)知,人類無需重新學(xué)習(xí)任何新東西,就能輕松理解機(jī)器人的動(dòng)作。在結(jié)合大語言模型之后,能夠更好的與人類交互。
例如英國Engineered Arts 公司的人形機(jī)器人Ameca,輸入了大量真人表情數(shù)據(jù),通過立體3D打印機(jī)制作出精確的模具,實(shí)現(xiàn)了生動(dòng)的面部表情和肢體語言。
英國機(jī)器人公司Engineered Arts的人形機(jī)器人Ameca,能夠在橡膠皮膚上表現(xiàn)出超過 62 種面部表情,這是Ameca著名的“蘇醒時(shí)刻”
我們都知道人形有這么多好處,但對(duì)人形機(jī)器人最大的制約,還是軟硬件技術(shù)的高難度,小到每一個(gè)關(guān)節(jié)的設(shè)計(jì),再到運(yùn)動(dòng)控制、對(duì)環(huán)境的感知等等,每一個(gè)環(huán)節(jié)都存在技術(shù)難題,綜合在一起更是對(duì)系統(tǒng)的集成度、魯棒性要求很高。
比如運(yùn)動(dòng)控制的標(biāo)桿波士頓動(dòng)力,已經(jīng)成立了31年,歷經(jīng)被谷歌收購、被軟銀收購、被韓國現(xiàn)代集團(tuán)收購,一直都在不斷投入,雖然實(shí)現(xiàn)了“跑酷”等炫酷的功能,但背后是不計(jì)成本的投入、功耗極高、噪音很大,離量產(chǎn)落地還差很遠(yuǎn)。
波士頓動(dòng)力的機(jī)器人跑酷演示。視頻來源:波士頓動(dòng)力YouTube頻道
不過,如果一家公司把最終目標(biāo)定位成人形機(jī)器人,不代表它的產(chǎn)品只有一款人形機(jī)器人。在高難度的技術(shù)研發(fā)中,無論是移動(dòng)、抓取還是視覺感知等等,都可以在這個(gè)過程中迭代出新的產(chǎn)品,而最終把各項(xiàng)技術(shù)組合在一起,簡單來說就是:人形機(jī)器人是最難的機(jī)器人形態(tài),誰能做好人形,誰就也能做好其他形態(tài)的機(jī)器人。
總之,機(jī)器人的通用性和智能化是接下來的重點(diǎn),但不一定非要是人形,當(dāng)下還需要看場景需求。
03 訓(xùn)練數(shù)據(jù)是瓶頸,數(shù)據(jù)還能從哪里來?
能否獲得高質(zhì)量且足夠便宜的數(shù)據(jù),是當(dāng)下制約智能機(jī)器人發(fā)展的瓶頸,也是拉開公司之間競爭的重要手段。
前車之鑒是Everday Robots,它曾是谷歌的明星獨(dú)立項(xiàng)目,但在今年2月被谷歌因成本控制而解散,并入谷歌其他部門。造成Everday Robots成本高昂的一個(gè)重要原因,就是數(shù)據(jù)采集成本過于昂貴。OpenAI曾經(jīng)也有一個(gè)機(jī)器人部門,但后來放棄了,問題也出在數(shù)據(jù)收集上。
為什么采集成本這么高?主要是因?yàn)镋verday Robots基于真實(shí)環(huán)境來收集數(shù)據(jù)。谷歌為了訓(xùn)練PaLM-E,用了13臺(tái)機(jī)器人,收集了17個(gè)月,才拿到足夠的數(shù)據(jù)量,如果是在更復(fù)雜的工業(yè)場景,數(shù)據(jù)采集成本會(huì)更高。
目前對(duì)于人形機(jī)器人來說,主流的數(shù)據(jù)獲取手段有四種:
遙操作數(shù)據(jù):這是目前最主流的方式,特斯拉等很多機(jī)器人公司都在使用。這種方式基于人工遙操作,先學(xué)習(xí)和分解人是怎么做到的,然后對(duì)應(yīng)機(jī)器人要怎么做到。由于是真實(shí)世界的數(shù)據(jù),所以數(shù)據(jù)質(zhì)量最高,但數(shù)據(jù)采集成本也是最高的。
模擬器數(shù)據(jù):由于遙操作成本過高,更低成本的基于模擬器,來生產(chǎn)仿真數(shù)據(jù)也有越來越多人使用。一方面通過合成仿真數(shù)據(jù)可以大幅擴(kuò)展數(shù)據(jù)集,此外仿真場景還可以去補(bǔ)充日?,F(xiàn)實(shí)中比較少出現(xiàn)的任務(wù)。在一些任務(wù)中,比如導(dǎo)航或是抓取物品等,仿真表現(xiàn)不錯(cuò),但在另一些對(duì)真實(shí)物理數(shù)據(jù)要求比較高的場景,比如在流體中的運(yùn)動(dòng)、或是物體破裂等等,還比較難在仿真里做到。但模擬器不是萬能的,如何構(gòu)建豐富的3D內(nèi)容、如何設(shè)置合適的獎(jiǎng)勵(lì)機(jī)制等,也是這種方式所面臨的問題,當(dāng)然還有算力成本。
視頻數(shù)據(jù):鑒于線上視頻網(wǎng)站中,有大量第一人稱視角的視頻,這些視頻完全可以讓機(jī)器人或者AI來學(xué)習(xí),這些都是很好的人類真實(shí)活動(dòng)的視頻,通過這些圖像來訓(xùn)練機(jī)器人的行為決策,可以快速且低成本的實(shí)現(xiàn)數(shù)據(jù)積累和泛化能力。目前學(xué)界和谷歌等大廠,都在嘗試這種方式來加快訓(xùn)練。
模仿學(xué)習(xí):這種方式還在研究中,就是讓人直接在機(jī)器人面前演示一遍,機(jī)器人就學(xué)會(huì)了。比如在家庭場景中的一些動(dòng)作,掃地或是把臟衣服放進(jìn)洗衣機(jī),可能只需要教幾遍,不需要額外采集數(shù)據(jù),也不需要?jiǎng)幼鞑蹲?。有不少相關(guān)的論文已經(jīng)發(fā)表。
總之,具身大數(shù)據(jù)對(duì)于機(jī)器人來說是一個(gè)重要瓶頸,在缺乏具身數(shù)據(jù)的情況下,很難訓(xùn)練出真正好用的具身基礎(chǔ)模型。
目前在每條數(shù)據(jù)獲取的技術(shù)路徑上,都有很多公司或高校在嘗試,很多公司也是幾種方式混合在一起使用,以最快的速度和盡量低的成本來獲取高質(zhì)量數(shù)據(jù)。
今年,機(jī)器人在真實(shí)環(huán)境中的規(guī)劃、感知、決策、執(zhí)行等能力大幅提升,通過語音直接控制成為可行,人機(jī)交互也大大增強(qiáng)。在這種智能化、通用性的發(fā)展趨勢下,通用機(jī)器人的應(yīng)用領(lǐng)域被大大拓寬,人形機(jī)器人的商業(yè)化也成為了可能。
通用機(jī)器人還將帶來工業(yè)制造能力的騰飛,從以前只能機(jī)械完成代碼指令的工業(yè)機(jī)器人,變成能使用大量人類工具、載具的通用機(jī)器人。而在工業(yè)制造領(lǐng)域,無論是在機(jī)器人零件端,還是工業(yè)制造的應(yīng)用場景、訓(xùn)練所需要的數(shù)據(jù)成本等方面,中國都更具優(yōu)勢。
在ITF World 2023大會(huì)上,英偉達(dá)創(chuàng)始人黃仁勛說,人工智能的下一個(gè)浪潮將是具身智能,即能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng)。而通用機(jī)器人,無疑是最理想的載體。