文 | DoNews 小不董
編輯 | 李信馬
科技圈整個10月最大的爭議事件之一,可能就是特斯拉的人形機器人了。
2022年10月1日上午,在全世界期待了一年之后,最后出現(xiàn)在屏幕面前的,卻是步履蹣跚的“垂垂老朽”,演示也僅僅是打了個招呼,并沒有回答問題或者跳舞,裸露的線路和電池給人一種剛從實驗室拉出來的感覺。
去年的AI Day上,特斯拉人形機器人的展示視頻中,是一位靈活的的機器人舞者。也因此,小米的CyberOne(鐵大)首次亮相后,被觀眾們?nèi)撼捌渥呗纷藙菹窆_老太太,可以被特斯拉的機器人扶著過馬路。但沒想到,真實的特斯拉的人形機器人Optimus(擎天柱)卻也遠(yuǎn)沒達(dá)到觀眾們的預(yù)期。
不過這絲毫沒有影響特斯拉CEO埃隆·馬斯克的興致,馬斯克在AI Day現(xiàn)場表示,有信心以非常低的成本來實現(xiàn)機器人的量產(chǎn),并且產(chǎn)量應(yīng)該可以達(dá)到數(shù)百萬臺,最終價格會不到2萬美元。
這一臺目前看起來還很簡陋的人形機器人,真的能推動行業(yè)的變革嗎?
在優(yōu)必選科技副總裁、人形機器人創(chuàng)新中心負(fù)責(zé)人付春江看來,還真有這個可能。
目前人形機器人的技術(shù)相關(guān)路線分成三個范式:第一是以本田Asimo為代表的簡化模型位置控制,其特點是利用簡化模型節(jié)約算力;第二是波士頓動力Atlas的動力學(xué)控制,以及后期發(fā)展的高速 WBC全身內(nèi)控的相關(guān)算法,特點是實時優(yōu)化;第三是美國敏捷機器人公司人形機器人Digit強化學(xué)習(xí)的范式,其特點是可以補償彈性連桿的沒有建模的相關(guān)屬性。
付春江認(rèn)為,基于其實時性與通用性,特斯拉的擎天柱很有可能創(chuàng)造第四范式,即基于大規(guī)模神經(jīng)網(wǎng)絡(luò)的通用視覺決策運動控制。
在AI Day的這次展示中,擎天柱所演示的場景有三個:澆花、搬箱子和工廠零部件的移動,分別代表家庭服務(wù)、物流遞送和工廠裝配,每做一件事情都有相應(yīng)的一整套流程。
付春江告訴DoNews:“這三個場景在現(xiàn)實的開發(fā)難度其實是反過來的,隨著場景從結(jié)構(gòu)化到非結(jié)構(gòu)化,從靜態(tài)到動態(tài),首先會實施的是在工廠里邊,因為工廠的環(huán)境以及所使用的零部件的尺寸,都可以有相應(yīng)數(shù)據(jù)輸入到機器人當(dāng)中,這個是相對比較結(jié)構(gòu)化的。第二個場景就是在物流遞送方面,從這開始它的環(huán)境就逐步開放了,隨著環(huán)境的動態(tài)性、開放性以及任務(wù)的復(fù)雜性,最后才能到家庭服務(wù)場景。先在自己(特斯拉)的工廠里面去布置人形機器人,用途是為了快速積累數(shù)據(jù)與迭代調(diào)試?!?/p>
付春江認(rèn)為,特斯拉有龐大的、先進的FSD自動駕駛平臺作為基礎(chǔ),隨著它的大規(guī)模數(shù)據(jù)和網(wǎng)絡(luò)的建立,以及在它自身工廠場景部署數(shù)據(jù)采集,特斯拉的未來迭代速度會超過大家的預(yù)期。
一、FSD:車能用,機器人也能用
FSD(Full Self-Drive),即“完全自動駕駛”。
人形機器人想要有能力在物理世界中移動并且具備一定程度的智能,那其“大腦”就需要做到人類大腦能做的,比如能夠處理視覺數(shù)據(jù),發(fā)出動作指令,還要支持通信,擎天柱的大腦就是特斯拉的人工智能系統(tǒng)。
機器視覺作為一種底層通用技術(shù),可以擴展到手機、攝像頭、自動駕駛汽車、機器人等諸多產(chǎn)品形態(tài),在鐵大的視覺系統(tǒng)上,就用了很多小米手機的圖像處理能力。而擎天柱頭部會裝配特斯拉車同款的智能駕駛攝像頭,具備與特斯拉車相同的視覺感知能力,可以說在機器視覺算法上,擎天柱與特斯拉汽車的FSD一脈相承。
特斯拉結(jié)合自動駕駛的視覺處理和傳感技術(shù),可以確保機器人保持良好的姿態(tài)和步態(tài),同時對人類相關(guān)的動作進行關(guān)鍵幀分析,再用算法映射到機器人,做到更好的軌跡規(guī)劃。
此外,特斯拉在汽車自動駕駛領(lǐng)域的自研芯片、軟件算法、訓(xùn)練模型以及其超級計算機Dojo的AI算力,都可以支持到特斯拉人形機器人,這是擎天柱其相較于其它人形機器人的核心優(yōu)勢。比如特斯拉的機器人使用了單顆特斯拉自研的SoC芯片,而并非特斯拉在汽車上使用的雙芯片自動駕駛方案。
下圖中,特斯拉的研發(fā)人員最近正在訓(xùn)練人形機器人的計算機視覺識別高頻特征,讓人形機器人能夠快速找到最近的充電站。
圖片來源:特斯拉
軟件上的優(yōu)勢固然重要,不過當(dāng)下機器人最需要解決的問題,可能還是集中在硬件上,對此,付春江也表示:“就硬件水平來講,特斯拉與世界領(lǐng)先的人形機器人是沒有代差的?!?nbsp;
二、硬件:性價比高,可以量產(chǎn)
目前業(yè)界運動能力最強的人形機器人,非波士頓動力Atlas莫屬,但其成本之高也令人咋舌。而特斯拉顯然是希望打造一款足夠靈活但又性價比高,能夠大量生產(chǎn)的人形機器人,這也是這款產(chǎn)品的初衷——替代人類去做大量重復(fù)性的工作。
要達(dá)到這個目標(biāo),就像電動汽車一樣,首先要能“續(xù)航”。從擎天柱的概念圖中可以看到,整個機器人包含了28個電動驅(qū)動器(橙色標(biāo)注)和電池及控制模塊(藍(lán)色標(biāo)注)。特斯拉將配電和計算機集中到平臺的物理中心,也就是機器人的軀干中心,身體中間有2.3kWh的電池組,工作電壓為52V,其中的電池組可以維持它一整天的工作,其目標(biāo)就是盡量減少每個元件的數(shù)量和功能損耗。
電池組的獨特之處在于,可以把所有電池的電子設(shè)備集中到電池組內(nèi)的單個PCB里面,這就意味著從傳感到融合到充電管理,全都匯集到這一個系統(tǒng)中。這項技術(shù)借鑒了特斯拉在電子產(chǎn)品和汽車上的設(shè)計,電池組只有實現(xiàn)真正高效簡單的冷卻,才能確保良好的電池管理和安全性。
其次,是足夠靈活且耐用。完全體的擎天柱體重73kg,用電功率在靜坐時為100W,快走時500W,全身有200多個自由度,手部27個自由度。機器人在研發(fā)過程中,受到了生物學(xué)的啟發(fā),以機器人腿部關(guān)節(jié)為例,就是仿照了人類膝蓋的真實結(jié)構(gòu)。
研發(fā)人員將人類的膝蓋和其運動過程中所受的力線性化,比如說行走,上樓梯下蹲,它的關(guān)節(jié)會呈現(xiàn)什么樣一個壓力曲線,從而學(xué)習(xí)如何讓機器人膝蓋使用更少的力來構(gòu)建,能實現(xiàn)更好的力度控制的同事,也讓相關(guān)結(jié)構(gòu)緊密的包裹在膝蓋周圍。
在爬樓梯、攀巖或步行時,要考慮機器人關(guān)節(jié)所承受的壓力,研發(fā)人員將不同的參數(shù)錄入優(yōu)化程序和優(yōu)化模型中,以求機器人適應(yīng)不同的場景。
執(zhí)行器的效率圖生成了相關(guān)軌跡,以點云的形式進行記錄。機器人的每個關(guān)節(jié)都是特定的,28個關(guān)節(jié)都需要定制規(guī)格。因此,研發(fā)人員需要減少定制的執(zhí)行器設(shè)計,解析它們上傳的云并采取共性研究。特斯拉展示了擎天柱在極限情況下所能達(dá)到的測試效果,其關(guān)節(jié)驅(qū)動器能吊起一架半噸重的鋼琴。
同樣采用了生物學(xué)的還有機械手,和人手一樣同樣使用五個手指來驅(qū)動,既可以完成大口徑物體抓取,同時也能滿足抓取精巧物體的需求。特斯拉的人形機器人手指有6個執(zhí)行器和11個自由度,搭載了能夠驅(qū)動手指并進行感知的傳感器。
圖片來源:特斯拉
在安全性和可靠性方面,特斯拉也做了不少的設(shè)計。由于一臺機器人的維修成本很高,所以為了保護機器人,研發(fā)人員對其結(jié)構(gòu)基礎(chǔ)進行了優(yōu)化,在人形機器人摔倒時不會把變速器和胳膊弄壞。
研發(fā)人員還采用了與汽車相同的底層技術(shù),讓機器人在所有組件中產(chǎn)生壓力,使得其行走控制變得更加容易,也不會那么僵硬。
今年4月份,擎天柱的移動速度還很慢;今年7月,人形機器人解鎖了骨盆的應(yīng)用來保持平衡;8月時,手臂開始發(fā)揮作用;到9月份,擎天柱的腳趾也利用了起來,擎天柱的移動速度有了明顯的提升。一年的時間,軟硬件升級過后的擎天柱,就這樣出現(xiàn)在了我們眼前。
雖然現(xiàn)在還顯得笨拙,但這樣的不斷進步是有其價值的,比如人形機器人可能最早落地的場景——工廠,目前自動化程度已經(jīng)很高了,但是總裝線的自動化率依然較低,細(xì)碎輕巧的任務(wù)基本是靠人工,那么人形機器人正好能夠彌補這個空白,在移動中實現(xiàn)裝配。
“人形機器人在B端的應(yīng)用,與常見的機械臂、物流機器人相比,是在中短距離的移動范圍內(nèi),用雙臂和靈巧手完成的序列化的工作。比如需要快速更換不同工具,需要多種對象的動態(tài)任務(wù)序列等等,這些都是與機械臂和物流機器人可以打出差異化來的?!备洞航f。
三、人形機器人什么時候能真正投入實用?
工廠更期待的是二十出頭的年輕勞動力,而非七老八十的“老年機器人”。
“我個人認(rèn)為研發(fā)和量產(chǎn),是人形機器人最終走向落地、走進千家萬戶非常關(guān)鍵的一步。但從過去的這種Demo級來看的話,量產(chǎn)還存在運動能力不達(dá)標(biāo)、成本居高不下、缺乏落地場景這三個非常大的困難?!备洞航锌?。
優(yōu)必選科技同樣是全球優(yōu)秀的人形機器人科技公司,旗下人形機器人Walker X也開始在科研開發(fā)和科技展館、影視綜藝、商演活動、政企展廳等商用服務(wù)領(lǐng)域?qū)崿F(xiàn)落地應(yīng)用,做出了人形機器人商業(yè)化嘗試的示范案例,未來有望走進千家萬戶,在家庭服務(wù)場景中使用。
在場景落地方面,優(yōu)必選科技進行了超過1000小時無故障的實際場景落地演練工作,在付春江看來,人形機器人現(xiàn)在是相當(dāng)于iPhone1的階段,還處于快速發(fā)展的開端?!半S著大手企業(yè)的不斷進入,對賽道的不斷加碼,會有大量的上游零部件企業(yè),比如電機檢測、器廠、傳感器廠、結(jié)構(gòu)加工廠會得到相關(guān)益處,質(zhì)量、數(shù)量方面都會有所增加。另外下游的場景開發(fā)的針對性的這些廠商,數(shù)據(jù)服務(wù)廠商等等,甚至是第三方運維交付的廠商都會有很大的發(fā)展。”
在成本方面,優(yōu)必選科技是全球第一個實現(xiàn)大型人形機器人BOM成本降至十萬美元級別的公司。付春江表示,國產(chǎn)人形機器人在量產(chǎn)加國產(chǎn)化之后,至少在動力系統(tǒng)方面可以下降50%,算力系統(tǒng)可以有15%-25%的下降,而結(jié)構(gòu)及外觀可以有40%甚至更多的下降,“在2025年左右,我認(rèn)為人形機器人的成本可以降到5萬美元,或者是再稍微高一點的程度”。
而特斯拉大量沿用來自車端的成熟技術(shù),再加上偏量產(chǎn)實用性的設(shè)計思路,使得擎天柱的生產(chǎn)成本具備極大的優(yōu)勢。除量產(chǎn)以外,還可以通過國產(chǎn)化替代,或者國產(chǎn)的二線廠商隨著技術(shù)水平進步替代國產(chǎn)一線廠商,以及改進生產(chǎn)工具,減少相關(guān)零部件,還有用更魯棒的運動控制算法來降低對硬件精確度及硬件指標(biāo)的要求來降低成本。如果能結(jié)合以上4點,付春江估計特斯拉會在2025-2030年之間,實現(xiàn)2萬美元的相關(guān)成本。
人形機器人想要走進千家萬戶,首先要能以較高的完成度去完成消費者和社會的需求,其次是成本和通用AI的發(fā)展,最后還少不了人形機器人的易用程度,例如能夠開箱即用和售后維護,這些都是人形機器人未來產(chǎn)品化過程中不可或缺的。
顯然,這不是短期能達(dá)到的,但我們依然可以看好其未來的成長性,馬斯克在活動期間發(fā)的推文,透露擎天柱機器人將會有“貓女版”,可以看出,特斯拉對于人形機器人抱有強烈的信心,隨著更多的資本進入賽道,特斯拉入局有望推動行業(yè)從實驗室階段過渡到商業(yè)化階段, 人形機器人的發(fā)展未來可期。