正在閱讀:

第一個(gè)“拿起蘋(píng)果”的人形機(jī)器人,為什么是Figure?

掃一掃下載界面新聞APP

第一個(gè)“拿起蘋(píng)果”的人形機(jī)器人,為什么是Figure?

運(yùn)氣大于實(shí)力。

文丨產(chǎn)業(yè)象限  錢(qián)江

編輯丨山茶

3月13日,一則2分34秒的人形機(jī)器人視頻引爆了網(wǎng)絡(luò),讓人驚呼具身智能的時(shí)代提前到來(lái)了。

視頻內(nèi)容是美國(guó)人形機(jī)器人公司Figure的產(chǎn)品演示實(shí)景拍攝,視頻中,工作人員向機(jī)器人詢(xún)問(wèn)“我能吃點(diǎn)東西嗎”,機(jī)器人遲疑了幾秒,然后熟練地將蘋(píng)果遞給了工作人員。

▲圖源Figure

相信許多人看到這個(gè)畫(huà)面,都會(huì)有一種不真實(shí)的感受,似乎置身科幻之中。

為了將大家拉回現(xiàn)實(shí),F(xiàn)igure創(chuàng)始人Brett Adcock還在X上特意強(qiáng)調(diào),視頻是以1.0倍速連續(xù)拍攝的,機(jī)器人沒(méi)有遠(yuǎn)程操作,所有動(dòng)作和反饋都是完全基于深度學(xué)習(xí)自主完成的。

顯然,隨著Figure這則視頻的發(fā)布,人形機(jī)器人又完成一個(gè)關(guān)鍵突破。

但問(wèn)題也隨之而來(lái),為什么會(huì)是Figure?

要知道,F(xiàn)igure成立于2022年,發(fā)展時(shí)間距今不過(guò)2年。作為對(duì)比,世界上其他鼎鼎大名的人形機(jī)器人公司,特斯拉投入人形機(jī)器人已近3年,最近上市的優(yōu)必選做了12年,波士頓動(dòng)力更是做了21年。

那么,為何拿起“蘋(píng)果”的第一臺(tái)人形機(jī)器人是Figure?Figure是如何做到僅用兩年的時(shí)間,就引領(lǐng)具身智能的前沿發(fā)展的?它為何會(huì)成功,又面臨怎樣的挑戰(zhàn)?

驚艷的只是“智能”

雖然Figure展現(xiàn)了人形機(jī)器人無(wú)與倫比的交互能力,但我們?nèi)匀恍枰庾R(shí)到的是,這并不代表真正的具身智能已經(jīng)實(shí)現(xiàn)了,或者如Demo視頻中展現(xiàn)的人形機(jī)器人就即將進(jìn)入千家萬(wàn)戶(hù)。

原因很簡(jiǎn)單,首先Demo視頻演示的只是一個(gè)固定場(chǎng)景,而機(jī)器人真正進(jìn)入人類(lèi)生活和工作,還需要學(xué)會(huì)成千上萬(wàn)個(gè)類(lèi)似的場(chǎng)景,這是一個(gè)從0到1,和從1到100的過(guò)程。

做一個(gè)簡(jiǎn)單的舉例,就像自動(dòng)駕駛第一輛車(chē)能夠在測(cè)試道路上實(shí)現(xiàn)直線、轉(zhuǎn)彎、超車(chē)變道等場(chǎng)景的自動(dòng)駕駛,但并不等于自動(dòng)駕駛車(chē)輛就有了上路行駛的能力。

就自動(dòng)駕駛而言,早在20世紀(jì)60年,卡內(nèi)基梅隆大學(xué)的研究人員依靠計(jì)算機(jī)視覺(jué)和人工智能開(kāi)發(fā)的自動(dòng)駕駛汽車(chē),就已經(jīng)可以在高速公路上以每小時(shí)20英里的速度行駛了。但直到60年后的今天,L5級(jí)別的自動(dòng)駕駛?cè)匀贿b遙無(wú)期。

其次在Demo視頻中,F(xiàn)igure 01并沒(méi)有移動(dòng),它只是站在桌子面前,整個(gè)交互過(guò)程考驗(yàn)的只是它的意圖識(shí)別、人機(jī)交互,以及上肢的操作能力。

簡(jiǎn)單來(lái)說(shuō),這個(gè)視頻展示的真正厲害的點(diǎn)在于Figure01的軟件能力,即其內(nèi)部融合的OpenAI大模型大腦的部分,以及Figure01自己的,可以將OpenAI大模型能力與機(jī)器人本體(指機(jī)器人機(jī)械部分)進(jìn)行翻譯和交互智能系統(tǒng)。

Brett Adcock將這套系統(tǒng)稱(chēng)為“端到端”的神經(jīng)網(wǎng)絡(luò),其工作流程大致為,OpenAI的大模型作為大腦,提供視覺(jué)推理和語(yǔ)言理解(其中可能包括Sora和GPT-4的能力);Figure01神經(jīng)網(wǎng)絡(luò)作為小腦,根據(jù)OpenAI的大模型的判斷做出一系列快速、低級(jí)、靈巧的機(jī)器人動(dòng)作。

而對(duì)于人形機(jī)器人的考驗(yàn),軟件交互能力只是其中一部分,另一部分在于其本體的機(jī)械能力,比如如何在行走中保持平衡,各個(gè)機(jī)械部件的傳動(dòng)能力,如何讓動(dòng)作變得自然平穩(wěn),如何控制力度和精度等等。

而這些,需要考驗(yàn)人形機(jī)器人公司軟件和硬件的協(xié)同開(kāi)發(fā)能力,需要考驗(yàn)整個(gè)人形機(jī)器人供應(yīng)鏈上下游的共同開(kāi)發(fā)能力。而供應(yīng)鏈也是目前人形機(jī)器人面臨的最大挑戰(zhàn)之一,其復(fù)雜程度不亞于當(dāng)前的汽車(chē)產(chǎn)業(yè)鏈,但與汽車(chē)產(chǎn)業(yè)鏈發(fā)展距今130多年相比,人形機(jī)器人的產(chǎn)業(yè)鏈還處于“一張白紙”的狀態(tài)。

Brett Adcock也同樣認(rèn)為,目前人形機(jī)器人最大的難題在供應(yīng)鏈,這一點(diǎn)我們后面會(huì)詳細(xì)展開(kāi)。

當(dāng)然,F(xiàn)igure在機(jī)器人本體上也并非全無(wú)成績(jī)。事實(shí)上,它正在以飛快的速度前進(jìn)。

這幾年,人形機(jī)器人公司賽道上的選手有很多,F(xiàn)igure01的速度格外扎眼,它只用了1年時(shí)間就打破了機(jī)器人行走紀(jì)錄,而特斯拉花了15個(gè)月、波士頓花了21年。

▲圖:X@Brett Adcock

除此之外,資本市場(chǎng)的青睞也給了它更多的推力。

今年2月,Brett Adcock公布Figure獲得6.75億美金融資,其投資團(tuán)隊(duì)震動(dòng)了半個(gè)硅谷,亞馬遜創(chuàng)始人貝索斯,以及微軟、英偉達(dá)、OpenAI都來(lái)捧場(chǎng)。

隨后,Brett Adcock也公布了一張公司職位申請(qǐng)數(shù)量增長(zhǎng)圖,來(lái)顯示Figure的受歡迎程度,從2023年7月到2024年2月,8個(gè)月期間想入職Figure的應(yīng)聘者數(shù)量增長(zhǎng)了218%。

▲圖源:X@Brett Adcock

總而言之,F(xiàn)igure正在以前所未有的速度,向著“具身智能”的時(shí)代前進(jìn)。

借上OpenAI的東風(fēng)

正如我們前面提到的,F(xiàn)igure01的關(guān)鍵是軟件,而軟件中讓人驚艷的能力又主要來(lái)源于OpenAI。

所以嚴(yán)格意義上說(shuō),F(xiàn)igure在人形機(jī)器人上做出的創(chuàng)新其實(shí)有限。

但這并不妨礙Figure01帶來(lái)的驚艷。Figure01能聽(tīng)懂人類(lèi)的指令、識(shí)別出哪一個(gè)物體可以食用,并順暢地轉(zhuǎn)化為行動(dòng)能力。

這項(xiàng)能力之所以令人驚艷,除了絲滑無(wú)障礙的溝通之外,還在于它解決了機(jī)器人行業(yè)的一個(gè)固有悖論——“莫拉維克悖論”。

它由人工智能和機(jī)器人學(xué)領(lǐng)域的先驅(qū)漢斯·莫拉維克提出,在計(jì)算機(jī)和機(jī)器人系統(tǒng)中一個(gè)有趣且非直觀的現(xiàn)象:對(duì)于人類(lèi)來(lái)說(shuō)簡(jiǎn)單的感知和運(yùn)動(dòng)任務(wù),對(duì)計(jì)算機(jī)和機(jī)器人而言卻異常困難;而人類(lèi)認(rèn)為復(fù)雜的邏輯和抽象思維任務(wù),對(duì)計(jì)算機(jī)來(lái)說(shuō)卻相對(duì)容易。

所以Figure01展現(xiàn)的遞蘋(píng)果、擺盤(pán)子行為看上去簡(jiǎn)單,實(shí)現(xiàn)起來(lái)有一定的技術(shù)難度,需要擁有識(shí)別、計(jì)劃和執(zhí)行任務(wù)的能力。

而這項(xiàng)能力也來(lái)源于“端到端的神經(jīng)網(wǎng)絡(luò)閉環(huán)”,即Figure01可以直接將看到的、聽(tīng)到的信息轉(zhuǎn)化為語(yǔ)言和行為結(jié)果,中間不需要經(jīng)過(guò)其它程序處理。

Brett Adcock解釋Figure01的技術(shù)路線,稱(chēng)Figure01連接了Open AI的能力,所有行為均由神經(jīng)網(wǎng)絡(luò)視覺(jué)運(yùn)動(dòng)變壓器策略驅(qū)動(dòng),可以將像素直接映射到動(dòng)作。

▲圖源:X@Corey Lynch

出門(mén)問(wèn)問(wèn)創(chuàng)始人李志飛在他的賬號(hào)“飛哥說(shuō)”中詳細(xì)剖析Figure1的技術(shù)原理,在整個(gè)過(guò)程里,F(xiàn)igure01至少靈活擁有兩項(xiàng)能力:大語(yǔ)言模型的思維鏈COT能力,以及順暢的底層操控能力。

拆開(kāi)來(lái)說(shuō),F(xiàn)igure01的這一套操作,需要機(jī)器理解自然語(yǔ)言,并把自然語(yǔ)言轉(zhuǎn)換成機(jī)器的抽象計(jì)劃,再將這項(xiàng)抽象計(jì)劃轉(zhuǎn)化成底層操控。

最近的一次引發(fā)轟動(dòng)的機(jī)器人成果,是斯坦福大學(xué)華人團(tuán)隊(duì)研究的Mobile ALOHA,它能夠炒蝦仁、按電梯,這個(gè)能力還是通過(guò)人工遠(yuǎn)程操控疊加靜態(tài)ALOHA數(shù)據(jù)才實(shí)現(xiàn)。點(diǎn)擊查看《人形機(jī)器人,也迎來(lái)ChatGPT時(shí)刻?》

▲Mobile ALOHA樣機(jī)

在機(jī)器人領(lǐng)域,目前為了解決這個(gè)問(wèn)題最盛行的是三種模型:

第一個(gè)是RT-1模型,輸入文本指令和對(duì)應(yīng)圖像,通過(guò)預(yù)訓(xùn)練模型將其轉(zhuǎn)化為token,再經(jīng)過(guò)壓縮,最后輸出機(jī)器人聽(tīng)得懂的三個(gè)維度操作指令Mode、Arm、Base,分別用于控制機(jī)器人的模式轉(zhuǎn)化、控制機(jī)器人手臂動(dòng)作,以及控制機(jī)器人移動(dòng)。

第二個(gè)是PaLM-E模型,通過(guò)輸入多模態(tài)模型知識(shí),對(duì)任務(wù)信息進(jìn)行處理,分解成特定的機(jī)器人指令。

這兩種模型可以進(jìn)行融合,機(jī)器人經(jīng)過(guò)PaLM-E模型接收特定指令,再由RT-1將特定指令轉(zhuǎn)化為對(duì)應(yīng)的機(jī)器人控制指令。

第三種是RT-2模型,即視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型,可以直接將機(jī)器人輸入的信息轉(zhuǎn)化為動(dòng)作,單從表現(xiàn)來(lái)看,這似乎更符合Corey Lynch對(duì)外宣稱(chēng)的“端到端”實(shí)現(xiàn)方式。

根據(jù)李志飛團(tuán)隊(duì)的分析,F(xiàn)igure01更符合RT-1+PaLM-E的模型融合。Figure01從接收指令到行動(dòng),雖然這個(gè)這個(gè)過(guò)程有延緩,但整體非常順滑,RT-2決策頻率是1到5hz,很難做到Figure1的200Hz程度。

Brett Adcock搭載了Open AI的順風(fēng),在具身智能的道路上邁出了一大步。

單位時(shí)間內(nèi)跑的最快的公司

當(dāng)然,如果要回答Figure為什么跑得這么快,也不得不提到它的創(chuàng)始人Brett Adcock了。

和馬斯克一樣,Brett Adcock在社交媒體上異?;钴S。但Brett Adcock又與馬斯克的口無(wú)遮攔,嬉笑怒罵不同,他在社交媒體上更新的主要是他的工作進(jìn)度和思考。

這是一個(gè)實(shí)打?qū)嵉墓ぷ骺瘛?003年4月,隨著Figure完成7000萬(wàn)美元A輪融資,Brett Adcock在X上發(fā)布帖子的速度變得更加勤快。

他每天都發(fā)布若干條創(chuàng)業(yè)心得或與機(jī)器人相關(guān)的動(dòng)態(tài),并按“周”的速度強(qiáng)調(diào)一遍對(duì)“AI Robotics”行業(yè)的觀察與變化,常用語(yǔ)是“Bug week of developments…”或者“That's it for this week's AI and Robotics breakdown”。

除此之外,Brett Adcock還是一個(gè)久經(jīng)沙場(chǎng)的創(chuàng)業(yè)老兵。在投身人形機(jī)器人這一硬件領(lǐng)域之前,他就已經(jīng)在軟件領(lǐng)域摸爬滾打了10多年。

他在X上常常總結(jié)分享自己的創(chuàng)業(yè)洞見(jiàn),最常見(jiàn)的幾個(gè)關(guān)鍵詞是:快速、高效、輕便、低員工數(shù)、小團(tuán)隊(duì)、系統(tǒng),在創(chuàng)辦Figure之前,這些方法論是Brett Adcock連續(xù)創(chuàng)業(yè)成功的關(guān)鍵。

▲圖源:X@Brett Adcock

Brett Adcock出生于1986年,他的童年在伊利諾伊州莫韋夸小鎮(zhèn)外的一個(gè)玉米和大豆農(nóng)場(chǎng)度過(guò),或許從小就見(jiàn)慣了日夜勞作的過(guò)程,他對(duì)提高工作效率、節(jié)省勞動(dòng)力的事情格外著迷。

2002年,還在上學(xué)的Brett Adcock就創(chuàng)辦了一家網(wǎng)絡(luò)公司Street of Walls,據(jù)說(shuō)這家網(wǎng)站至今還在幫助金融領(lǐng)域公司提高面試效率。

2012年,25歲的Brett Adcock和Adam Goldstein聯(lián)合創(chuàng)辦了一個(gè)就業(yè)網(wǎng)站Vettery,在這段經(jīng)歷中,Brett Adcock將“高效”這件事情拔高了N個(gè)等級(jí)。

最初,Vettery只為第三方招聘公司提供服務(wù),但“經(jīng)歷幾次絕望的轉(zhuǎn)型”之后,最終決定“拋棄所有招聘人員,將求職者和公司放在一個(gè)市場(chǎng)”,通過(guò)機(jī)器學(xué)習(xí)匹配求職者和招聘方。

這個(gè)方法果然奏效,Vettery的用戶(hù)幾乎每周都在翻倍增長(zhǎng)。

▲圖源:Newatlas

正向的循環(huán)很快得到了市場(chǎng)的回應(yīng)。

2018年,Vettery在短短6年的時(shí)間內(nèi)獲得20000名客戶(hù),獲得當(dāng)時(shí)世界上最大的招聘公司Adecco集團(tuán)的注意,Adecco集團(tuán)以1.1億美金的價(jià)格收購(gòu)了Vettery。Brett Adcock獲得了人生第一桶金。

Brett Adcock的第二個(gè)創(chuàng)業(yè)項(xiàng)目是“電動(dòng)垂直起降飛機(jī)”,其創(chuàng)辦的Archer Aviation(簡(jiǎn)稱(chēng)Archer)是第一批eVTOL(電動(dòng)垂直起降)概念的公司之一,這時(shí)Brett Adcock 30歲。

Brett Adcock很擅長(zhǎng)“找錢(qián)”和“找人”。

Archer成立后不久,Brett Adcock就拉來(lái)了沃爾瑪電子商務(wù)主管兼Jet.com創(chuàng)始人馬克·洛爾 (Marc Lore) 作為投資人。Lore在2016年將Jet.com出售給沃爾瑪?shù)臅r(shí)候就已經(jīng)身價(jià)上億,2020年還持有2.75億美金沃爾瑪股票。

通常來(lái)講,Lore不會(huì)投資朋友和家人以外的創(chuàng)業(yè)公司,但Brett Adcock成了例外。不僅如此,Lore還幫助Brett從家族和其他對(duì)科技感興趣的富人那里籌集了大量資金。

很快,Brett Adcock組建了“豪華”的44人團(tuán)隊(duì),尋找航空領(lǐng)域的人才,包括前航空電子和工程部門(mén)負(fù)責(zé)人斯科特·弗曼(Scott Furman)和湯姆·穆尼斯(Tom Muniz)、空中客車(chē)公司Vahana原型機(jī)的總工程師杰夫·鮑爾(Geoff Bower),正式開(kāi)啟“空中租車(chē)服務(wù)”的旅途。

Brett Adcock“找錢(qián)”和“找人”的能力也復(fù)制到了Figure上。

2022年,當(dāng)OpenAI開(kāi)始在文本生成、自動(dòng)編程、語(yǔ)言翻譯、內(nèi)容創(chuàng)作等多個(gè)領(lǐng)域嘗試應(yīng)用GPT-3時(shí),Brett Adcock也從Archer離職了。

這個(gè)決定非常出人意料,因?yàn)楫?dāng)時(shí)Archer已經(jīng)在申請(qǐng)飛行證的關(guān)鍵節(jié)點(diǎn),現(xiàn)在我們無(wú)法考證Brett Adcock的離職是否是看到了人形機(jī)器人的更大機(jī)遇,但至少Brett Adcock因?yàn)檫@次離職趕上了人形機(jī)器人的風(fēng)口。

之后就有了Figure的故事,Brett Adcock找來(lái)了Jerry Pratt擔(dān)任首席技術(shù)官,谷歌DeepMind科學(xué)家Corey Lynch也加入了Figure團(tuán)隊(duì)。

Jerry Pratt從1998年就開(kāi)始研究機(jī)器人,他曾經(jīng)寫(xiě)過(guò)一篇論文《Walking on Partial Footholds Including Line Contacts with the Humanoid Robot Atlas》,這篇論文提出了一套算法,它可以讓人形機(jī)器人在有限的立足點(diǎn)信息內(nèi),也能實(shí)現(xiàn)邁步,火出圈的波士頓Atlas采用的正是這個(gè)算法。

2022年5月,F(xiàn)igure成立。之后兩年,人形機(jī)器人賽道群雄環(huán)伺。

國(guó)外有馬斯克不斷迭代Optimus,1X也獲得Open AI融資,中國(guó)市場(chǎng)宇樹(shù)H1不斷鉆研全尺寸人形機(jī)器人跑步,優(yōu)必選敲鐘上市。Figure能在這些公司中突圍而出,或許緣于Brett Adcock在X上表達(dá)的理念,“如果我是一名投資人,我會(huì)建議尋找單位時(shí)間內(nèi)進(jìn)步最大的公司”。

難啃的供應(yīng)鏈

雖然在Brett Adcock的帶領(lǐng)下,在硅谷資本的助推下,F(xiàn)igure正在以飛快的速度前進(jìn)。但擺在Figure面前的挑戰(zhàn)也同樣艱巨。

Brett Adcock曾說(shuō)起他選擇人形機(jī)器人的原因,“我們正在目睹前所未有的勞動(dòng)力短缺,在我們重點(diǎn)關(guān)注的倉(cāng)儲(chǔ)和制造行業(yè),年周轉(zhuǎn)率在 50-150% 之間,這些行業(yè)正在努力尋找/留住人才并擴(kuò)大勞動(dòng)力規(guī)模?!?/p>

Brett Adcock認(rèn)為機(jī)器人做成人形更有效率,因?yàn)閾碛型?、手臂和手的機(jī)器人可以執(zhí)行類(lèi)似人類(lèi)的任務(wù),而無(wú)需改變環(huán)境,畢竟,重塑整個(gè)物理世界,是一項(xiàng)難以克服的挑戰(zhàn)。

“有用”是Brett Adcock做人形機(jī)器人的第一要義。但要讓人形機(jī)器人有用,證明這件事情是第一大挑戰(zhàn)。

Brett Adcock在一段采訪中表示,已經(jīng)有幾十個(gè)客戶(hù)在尋找與Figure01的合作,但目前只和寶馬做了真正的合作,因?yàn)閷汃R會(huì)真正地將人形機(jī)器人的部署和集成送到他們?cè)谒古撂贡さ脑O(shè)施。他要先用盡可能少的機(jī)器人,證明可行性。

其次,當(dāng)從有用到真正帶來(lái)生產(chǎn)了,人形機(jī)器人還需要大規(guī)模制造,而這其中的首要條件,就是硬件的可靠性。

雖然Brett Adcock有過(guò)一段做硬件的經(jīng)歷,但真正踏入人形機(jī)器人世界時(shí),他還是被供應(yīng)鏈難住了。“供應(yīng)鏈的缺乏讓我感到驚訝,這也意味著未來(lái)創(chuàng)業(yè)者還有很多新機(jī)會(huì)”。

▲圖源:X@Brett Adcock

他在X上多次提及人形機(jī)器人缺乏一套成熟的供應(yīng)鏈,因此團(tuán)隊(duì)必須從頭開(kāi)始設(shè)計(jì)整個(gè)機(jī)器人,包括執(zhí)行器、電子設(shè)備、結(jié)構(gòu)、關(guān)節(jié)、操作系統(tǒng)、控件、固件、人工智能系統(tǒng)等。

復(fù)雜多樣的零部件需求,意味著要從全球不同的供應(yīng)商那里進(jìn)行采購(gòu),為了確保零部件的質(zhì)量和供應(yīng)的可靠性,還需要選擇合適的供應(yīng)商,并維持良好的合作關(guān)系,這又不得不投入大量時(shí)間進(jìn)行供應(yīng)商管理、評(píng)估和審查。

更重要的是,人形機(jī)器人對(duì)零部件高性能的要求,會(huì)產(chǎn)生較高的成本,如果未來(lái)要規(guī)?;a(chǎn)Figure01,Brett Adcock必須思考如何降低采購(gòu)和物流成本,來(lái)保證企業(yè)的利潤(rùn)。

在機(jī)器人領(lǐng)域,技術(shù)帶來(lái)的驚艷是一回事,但是如何在商業(yè)化上做好規(guī)?;质橇硪换厥?。

而這也不僅僅是Figure的挑戰(zhàn),也是所有人形機(jī)器人企業(yè)共同面臨的挑戰(zhàn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

第一個(gè)“拿起蘋(píng)果”的人形機(jī)器人,為什么是Figure?

運(yùn)氣大于實(shí)力。

文丨產(chǎn)業(yè)象限  錢(qián)江

編輯丨山茶

3月13日,一則2分34秒的人形機(jī)器人視頻引爆了網(wǎng)絡(luò),讓人驚呼具身智能的時(shí)代提前到來(lái)了。

視頻內(nèi)容是美國(guó)人形機(jī)器人公司Figure的產(chǎn)品演示實(shí)景拍攝,視頻中,工作人員向機(jī)器人詢(xún)問(wèn)“我能吃點(diǎn)東西嗎”,機(jī)器人遲疑了幾秒,然后熟練地將蘋(píng)果遞給了工作人員。

▲圖源Figure

相信許多人看到這個(gè)畫(huà)面,都會(huì)有一種不真實(shí)的感受,似乎置身科幻之中。

為了將大家拉回現(xiàn)實(shí),F(xiàn)igure創(chuàng)始人Brett Adcock還在X上特意強(qiáng)調(diào),視頻是以1.0倍速連續(xù)拍攝的,機(jī)器人沒(méi)有遠(yuǎn)程操作,所有動(dòng)作和反饋都是完全基于深度學(xué)習(xí)自主完成的。

顯然,隨著Figure這則視頻的發(fā)布,人形機(jī)器人又完成一個(gè)關(guān)鍵突破。

但問(wèn)題也隨之而來(lái),為什么會(huì)是Figure?

要知道,F(xiàn)igure成立于2022年,發(fā)展時(shí)間距今不過(guò)2年。作為對(duì)比,世界上其他鼎鼎大名的人形機(jī)器人公司,特斯拉投入人形機(jī)器人已近3年,最近上市的優(yōu)必選做了12年,波士頓動(dòng)力更是做了21年。

那么,為何拿起“蘋(píng)果”的第一臺(tái)人形機(jī)器人是Figure?Figure是如何做到僅用兩年的時(shí)間,就引領(lǐng)具身智能的前沿發(fā)展的?它為何會(huì)成功,又面臨怎樣的挑戰(zhàn)?

驚艷的只是“智能”

雖然Figure展現(xiàn)了人形機(jī)器人無(wú)與倫比的交互能力,但我們?nèi)匀恍枰庾R(shí)到的是,這并不代表真正的具身智能已經(jīng)實(shí)現(xiàn)了,或者如Demo視頻中展現(xiàn)的人形機(jī)器人就即將進(jìn)入千家萬(wàn)戶(hù)。

原因很簡(jiǎn)單,首先Demo視頻演示的只是一個(gè)固定場(chǎng)景,而機(jī)器人真正進(jìn)入人類(lèi)生活和工作,還需要學(xué)會(huì)成千上萬(wàn)個(gè)類(lèi)似的場(chǎng)景,這是一個(gè)從0到1,和從1到100的過(guò)程。

做一個(gè)簡(jiǎn)單的舉例,就像自動(dòng)駕駛第一輛車(chē)能夠在測(cè)試道路上實(shí)現(xiàn)直線、轉(zhuǎn)彎、超車(chē)變道等場(chǎng)景的自動(dòng)駕駛,但并不等于自動(dòng)駕駛車(chē)輛就有了上路行駛的能力。

就自動(dòng)駕駛而言,早在20世紀(jì)60年,卡內(nèi)基梅隆大學(xué)的研究人員依靠計(jì)算機(jī)視覺(jué)和人工智能開(kāi)發(fā)的自動(dòng)駕駛汽車(chē),就已經(jīng)可以在高速公路上以每小時(shí)20英里的速度行駛了。但直到60年后的今天,L5級(jí)別的自動(dòng)駕駛?cè)匀贿b遙無(wú)期。

其次在Demo視頻中,F(xiàn)igure 01并沒(méi)有移動(dòng),它只是站在桌子面前,整個(gè)交互過(guò)程考驗(yàn)的只是它的意圖識(shí)別、人機(jī)交互,以及上肢的操作能力。

簡(jiǎn)單來(lái)說(shuō),這個(gè)視頻展示的真正厲害的點(diǎn)在于Figure01的軟件能力,即其內(nèi)部融合的OpenAI大模型大腦的部分,以及Figure01自己的,可以將OpenAI大模型能力與機(jī)器人本體(指機(jī)器人機(jī)械部分)進(jìn)行翻譯和交互智能系統(tǒng)。

Brett Adcock將這套系統(tǒng)稱(chēng)為“端到端”的神經(jīng)網(wǎng)絡(luò),其工作流程大致為,OpenAI的大模型作為大腦,提供視覺(jué)推理和語(yǔ)言理解(其中可能包括Sora和GPT-4的能力);Figure01神經(jīng)網(wǎng)絡(luò)作為小腦,根據(jù)OpenAI的大模型的判斷做出一系列快速、低級(jí)、靈巧的機(jī)器人動(dòng)作。

而對(duì)于人形機(jī)器人的考驗(yàn),軟件交互能力只是其中一部分,另一部分在于其本體的機(jī)械能力,比如如何在行走中保持平衡,各個(gè)機(jī)械部件的傳動(dòng)能力,如何讓動(dòng)作變得自然平穩(wěn),如何控制力度和精度等等。

而這些,需要考驗(yàn)人形機(jī)器人公司軟件和硬件的協(xié)同開(kāi)發(fā)能力,需要考驗(yàn)整個(gè)人形機(jī)器人供應(yīng)鏈上下游的共同開(kāi)發(fā)能力。而供應(yīng)鏈也是目前人形機(jī)器人面臨的最大挑戰(zhàn)之一,其復(fù)雜程度不亞于當(dāng)前的汽車(chē)產(chǎn)業(yè)鏈,但與汽車(chē)產(chǎn)業(yè)鏈發(fā)展距今130多年相比,人形機(jī)器人的產(chǎn)業(yè)鏈還處于“一張白紙”的狀態(tài)。

Brett Adcock也同樣認(rèn)為,目前人形機(jī)器人最大的難題在供應(yīng)鏈,這一點(diǎn)我們后面會(huì)詳細(xì)展開(kāi)。

當(dāng)然,F(xiàn)igure在機(jī)器人本體上也并非全無(wú)成績(jī)。事實(shí)上,它正在以飛快的速度前進(jìn)。

這幾年,人形機(jī)器人公司賽道上的選手有很多,F(xiàn)igure01的速度格外扎眼,它只用了1年時(shí)間就打破了機(jī)器人行走紀(jì)錄,而特斯拉花了15個(gè)月、波士頓花了21年。

▲圖:X@Brett Adcock

除此之外,資本市場(chǎng)的青睞也給了它更多的推力。

今年2月,Brett Adcock公布Figure獲得6.75億美金融資,其投資團(tuán)隊(duì)震動(dòng)了半個(gè)硅谷,亞馬遜創(chuàng)始人貝索斯,以及微軟、英偉達(dá)、OpenAI都來(lái)捧場(chǎng)。

隨后,Brett Adcock也公布了一張公司職位申請(qǐng)數(shù)量增長(zhǎng)圖,來(lái)顯示Figure的受歡迎程度,從2023年7月到2024年2月,8個(gè)月期間想入職Figure的應(yīng)聘者數(shù)量增長(zhǎng)了218%。

▲圖源:X@Brett Adcock

總而言之,F(xiàn)igure正在以前所未有的速度,向著“具身智能”的時(shí)代前進(jìn)。

借上OpenAI的東風(fēng)

正如我們前面提到的,F(xiàn)igure01的關(guān)鍵是軟件,而軟件中讓人驚艷的能力又主要來(lái)源于OpenAI。

所以嚴(yán)格意義上說(shuō),F(xiàn)igure在人形機(jī)器人上做出的創(chuàng)新其實(shí)有限。

但這并不妨礙Figure01帶來(lái)的驚艷。Figure01能聽(tīng)懂人類(lèi)的指令、識(shí)別出哪一個(gè)物體可以食用,并順暢地轉(zhuǎn)化為行動(dòng)能力。

這項(xiàng)能力之所以令人驚艷,除了絲滑無(wú)障礙的溝通之外,還在于它解決了機(jī)器人行業(yè)的一個(gè)固有悖論——“莫拉維克悖論”。

它由人工智能和機(jī)器人學(xué)領(lǐng)域的先驅(qū)漢斯·莫拉維克提出,在計(jì)算機(jī)和機(jī)器人系統(tǒng)中一個(gè)有趣且非直觀的現(xiàn)象:對(duì)于人類(lèi)來(lái)說(shuō)簡(jiǎn)單的感知和運(yùn)動(dòng)任務(wù),對(duì)計(jì)算機(jī)和機(jī)器人而言卻異常困難;而人類(lèi)認(rèn)為復(fù)雜的邏輯和抽象思維任務(wù),對(duì)計(jì)算機(jī)來(lái)說(shuō)卻相對(duì)容易。

所以Figure01展現(xiàn)的遞蘋(píng)果、擺盤(pán)子行為看上去簡(jiǎn)單,實(shí)現(xiàn)起來(lái)有一定的技術(shù)難度,需要擁有識(shí)別、計(jì)劃和執(zhí)行任務(wù)的能力。

而這項(xiàng)能力也來(lái)源于“端到端的神經(jīng)網(wǎng)絡(luò)閉環(huán)”,即Figure01可以直接將看到的、聽(tīng)到的信息轉(zhuǎn)化為語(yǔ)言和行為結(jié)果,中間不需要經(jīng)過(guò)其它程序處理。

Brett Adcock解釋Figure01的技術(shù)路線,稱(chēng)Figure01連接了Open AI的能力,所有行為均由神經(jīng)網(wǎng)絡(luò)視覺(jué)運(yùn)動(dòng)變壓器策略驅(qū)動(dòng),可以將像素直接映射到動(dòng)作。

▲圖源:X@Corey Lynch

出門(mén)問(wèn)問(wèn)創(chuàng)始人李志飛在他的賬號(hào)“飛哥說(shuō)”中詳細(xì)剖析Figure1的技術(shù)原理,在整個(gè)過(guò)程里,F(xiàn)igure01至少靈活擁有兩項(xiàng)能力:大語(yǔ)言模型的思維鏈COT能力,以及順暢的底層操控能力。

拆開(kāi)來(lái)說(shuō),F(xiàn)igure01的這一套操作,需要機(jī)器理解自然語(yǔ)言,并把自然語(yǔ)言轉(zhuǎn)換成機(jī)器的抽象計(jì)劃,再將這項(xiàng)抽象計(jì)劃轉(zhuǎn)化成底層操控。

最近的一次引發(fā)轟動(dòng)的機(jī)器人成果,是斯坦福大學(xué)華人團(tuán)隊(duì)研究的Mobile ALOHA,它能夠炒蝦仁、按電梯,這個(gè)能力還是通過(guò)人工遠(yuǎn)程操控疊加靜態(tài)ALOHA數(shù)據(jù)才實(shí)現(xiàn)。點(diǎn)擊查看《人形機(jī)器人,也迎來(lái)ChatGPT時(shí)刻?》

▲Mobile ALOHA樣機(jī)

在機(jī)器人領(lǐng)域,目前為了解決這個(gè)問(wèn)題最盛行的是三種模型:

第一個(gè)是RT-1模型,輸入文本指令和對(duì)應(yīng)圖像,通過(guò)預(yù)訓(xùn)練模型將其轉(zhuǎn)化為token,再經(jīng)過(guò)壓縮,最后輸出機(jī)器人聽(tīng)得懂的三個(gè)維度操作指令Mode、Arm、Base,分別用于控制機(jī)器人的模式轉(zhuǎn)化、控制機(jī)器人手臂動(dòng)作,以及控制機(jī)器人移動(dòng)。

第二個(gè)是PaLM-E模型,通過(guò)輸入多模態(tài)模型知識(shí),對(duì)任務(wù)信息進(jìn)行處理,分解成特定的機(jī)器人指令。

這兩種模型可以進(jìn)行融合,機(jī)器人經(jīng)過(guò)PaLM-E模型接收特定指令,再由RT-1將特定指令轉(zhuǎn)化為對(duì)應(yīng)的機(jī)器人控制指令。

第三種是RT-2模型,即視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型,可以直接將機(jī)器人輸入的信息轉(zhuǎn)化為動(dòng)作,單從表現(xiàn)來(lái)看,這似乎更符合Corey Lynch對(duì)外宣稱(chēng)的“端到端”實(shí)現(xiàn)方式。

根據(jù)李志飛團(tuán)隊(duì)的分析,F(xiàn)igure01更符合RT-1+PaLM-E的模型融合。Figure01從接收指令到行動(dòng),雖然這個(gè)這個(gè)過(guò)程有延緩,但整體非常順滑,RT-2決策頻率是1到5hz,很難做到Figure1的200Hz程度。

Brett Adcock搭載了Open AI的順風(fēng),在具身智能的道路上邁出了一大步。

單位時(shí)間內(nèi)跑的最快的公司

當(dāng)然,如果要回答Figure為什么跑得這么快,也不得不提到它的創(chuàng)始人Brett Adcock了。

和馬斯克一樣,Brett Adcock在社交媒體上異?;钴S。但Brett Adcock又與馬斯克的口無(wú)遮攔,嬉笑怒罵不同,他在社交媒體上更新的主要是他的工作進(jìn)度和思考。

這是一個(gè)實(shí)打?qū)嵉墓ぷ骺瘛?003年4月,隨著Figure完成7000萬(wàn)美元A輪融資,Brett Adcock在X上發(fā)布帖子的速度變得更加勤快。

他每天都發(fā)布若干條創(chuàng)業(yè)心得或與機(jī)器人相關(guān)的動(dòng)態(tài),并按“周”的速度強(qiáng)調(diào)一遍對(duì)“AI Robotics”行業(yè)的觀察與變化,常用語(yǔ)是“Bug week of developments…”或者“That's it for this week's AI and Robotics breakdown”。

除此之外,Brett Adcock還是一個(gè)久經(jīng)沙場(chǎng)的創(chuàng)業(yè)老兵。在投身人形機(jī)器人這一硬件領(lǐng)域之前,他就已經(jīng)在軟件領(lǐng)域摸爬滾打了10多年。

他在X上常??偨Y(jié)分享自己的創(chuàng)業(yè)洞見(jiàn),最常見(jiàn)的幾個(gè)關(guān)鍵詞是:快速、高效、輕便、低員工數(shù)、小團(tuán)隊(duì)、系統(tǒng),在創(chuàng)辦Figure之前,這些方法論是Brett Adcock連續(xù)創(chuàng)業(yè)成功的關(guān)鍵。

▲圖源:X@Brett Adcock

Brett Adcock出生于1986年,他的童年在伊利諾伊州莫韋夸小鎮(zhèn)外的一個(gè)玉米和大豆農(nóng)場(chǎng)度過(guò),或許從小就見(jiàn)慣了日夜勞作的過(guò)程,他對(duì)提高工作效率、節(jié)省勞動(dòng)力的事情格外著迷。

2002年,還在上學(xué)的Brett Adcock就創(chuàng)辦了一家網(wǎng)絡(luò)公司Street of Walls,據(jù)說(shuō)這家網(wǎng)站至今還在幫助金融領(lǐng)域公司提高面試效率。

2012年,25歲的Brett Adcock和Adam Goldstein聯(lián)合創(chuàng)辦了一個(gè)就業(yè)網(wǎng)站Vettery,在這段經(jīng)歷中,Brett Adcock將“高效”這件事情拔高了N個(gè)等級(jí)。

最初,Vettery只為第三方招聘公司提供服務(wù),但“經(jīng)歷幾次絕望的轉(zhuǎn)型”之后,最終決定“拋棄所有招聘人員,將求職者和公司放在一個(gè)市場(chǎng)”,通過(guò)機(jī)器學(xué)習(xí)匹配求職者和招聘方。

這個(gè)方法果然奏效,Vettery的用戶(hù)幾乎每周都在翻倍增長(zhǎng)。

▲圖源:Newatlas

正向的循環(huán)很快得到了市場(chǎng)的回應(yīng)。

2018年,Vettery在短短6年的時(shí)間內(nèi)獲得20000名客戶(hù),獲得當(dāng)時(shí)世界上最大的招聘公司Adecco集團(tuán)的注意,Adecco集團(tuán)以1.1億美金的價(jià)格收購(gòu)了Vettery。Brett Adcock獲得了人生第一桶金。

Brett Adcock的第二個(gè)創(chuàng)業(yè)項(xiàng)目是“電動(dòng)垂直起降飛機(jī)”,其創(chuàng)辦的Archer Aviation(簡(jiǎn)稱(chēng)Archer)是第一批eVTOL(電動(dòng)垂直起降)概念的公司之一,這時(shí)Brett Adcock 30歲。

Brett Adcock很擅長(zhǎng)“找錢(qián)”和“找人”。

Archer成立后不久,Brett Adcock就拉來(lái)了沃爾瑪電子商務(wù)主管兼Jet.com創(chuàng)始人馬克·洛爾 (Marc Lore) 作為投資人。Lore在2016年將Jet.com出售給沃爾瑪?shù)臅r(shí)候就已經(jīng)身價(jià)上億,2020年還持有2.75億美金沃爾瑪股票。

通常來(lái)講,Lore不會(huì)投資朋友和家人以外的創(chuàng)業(yè)公司,但Brett Adcock成了例外。不僅如此,Lore還幫助Brett從家族和其他對(duì)科技感興趣的富人那里籌集了大量資金。

很快,Brett Adcock組建了“豪華”的44人團(tuán)隊(duì),尋找航空領(lǐng)域的人才,包括前航空電子和工程部門(mén)負(fù)責(zé)人斯科特·弗曼(Scott Furman)和湯姆·穆尼斯(Tom Muniz)、空中客車(chē)公司Vahana原型機(jī)的總工程師杰夫·鮑爾(Geoff Bower),正式開(kāi)啟“空中租車(chē)服務(wù)”的旅途。

Brett Adcock“找錢(qián)”和“找人”的能力也復(fù)制到了Figure上。

2022年,當(dāng)OpenAI開(kāi)始在文本生成、自動(dòng)編程、語(yǔ)言翻譯、內(nèi)容創(chuàng)作等多個(gè)領(lǐng)域嘗試應(yīng)用GPT-3時(shí),Brett Adcock也從Archer離職了。

這個(gè)決定非常出人意料,因?yàn)楫?dāng)時(shí)Archer已經(jīng)在申請(qǐng)飛行證的關(guān)鍵節(jié)點(diǎn),現(xiàn)在我們無(wú)法考證Brett Adcock的離職是否是看到了人形機(jī)器人的更大機(jī)遇,但至少Brett Adcock因?yàn)檫@次離職趕上了人形機(jī)器人的風(fēng)口。

之后就有了Figure的故事,Brett Adcock找來(lái)了Jerry Pratt擔(dān)任首席技術(shù)官,谷歌DeepMind科學(xué)家Corey Lynch也加入了Figure團(tuán)隊(duì)。

Jerry Pratt從1998年就開(kāi)始研究機(jī)器人,他曾經(jīng)寫(xiě)過(guò)一篇論文《Walking on Partial Footholds Including Line Contacts with the Humanoid Robot Atlas》,這篇論文提出了一套算法,它可以讓人形機(jī)器人在有限的立足點(diǎn)信息內(nèi),也能實(shí)現(xiàn)邁步,火出圈的波士頓Atlas采用的正是這個(gè)算法。

2022年5月,F(xiàn)igure成立。之后兩年,人形機(jī)器人賽道群雄環(huán)伺。

國(guó)外有馬斯克不斷迭代Optimus,1X也獲得Open AI融資,中國(guó)市場(chǎng)宇樹(shù)H1不斷鉆研全尺寸人形機(jī)器人跑步,優(yōu)必選敲鐘上市。Figure能在這些公司中突圍而出,或許緣于Brett Adcock在X上表達(dá)的理念,“如果我是一名投資人,我會(huì)建議尋找單位時(shí)間內(nèi)進(jìn)步最大的公司”。

難啃的供應(yīng)鏈

雖然在Brett Adcock的帶領(lǐng)下,在硅谷資本的助推下,F(xiàn)igure正在以飛快的速度前進(jìn)。但擺在Figure面前的挑戰(zhàn)也同樣艱巨。

Brett Adcock曾說(shuō)起他選擇人形機(jī)器人的原因,“我們正在目睹前所未有的勞動(dòng)力短缺,在我們重點(diǎn)關(guān)注的倉(cāng)儲(chǔ)和制造行業(yè),年周轉(zhuǎn)率在 50-150% 之間,這些行業(yè)正在努力尋找/留住人才并擴(kuò)大勞動(dòng)力規(guī)模。”

Brett Adcock認(rèn)為機(jī)器人做成人形更有效率,因?yàn)閾碛型?、手臂和手的機(jī)器人可以執(zhí)行類(lèi)似人類(lèi)的任務(wù),而無(wú)需改變環(huán)境,畢竟,重塑整個(gè)物理世界,是一項(xiàng)難以克服的挑戰(zhàn)。

“有用”是Brett Adcock做人形機(jī)器人的第一要義。但要讓人形機(jī)器人有用,證明這件事情是第一大挑戰(zhàn)。

Brett Adcock在一段采訪中表示,已經(jīng)有幾十個(gè)客戶(hù)在尋找與Figure01的合作,但目前只和寶馬做了真正的合作,因?yàn)閷汃R會(huì)真正地將人形機(jī)器人的部署和集成送到他們?cè)谒古撂贡さ脑O(shè)施。他要先用盡可能少的機(jī)器人,證明可行性。

其次,當(dāng)從有用到真正帶來(lái)生產(chǎn)了,人形機(jī)器人還需要大規(guī)模制造,而這其中的首要條件,就是硬件的可靠性。

雖然Brett Adcock有過(guò)一段做硬件的經(jīng)歷,但真正踏入人形機(jī)器人世界時(shí),他還是被供應(yīng)鏈難住了?!肮?yīng)鏈的缺乏讓我感到驚訝,這也意味著未來(lái)創(chuàng)業(yè)者還有很多新機(jī)會(huì)”。

▲圖源:X@Brett Adcock

他在X上多次提及人形機(jī)器人缺乏一套成熟的供應(yīng)鏈,因此團(tuán)隊(duì)必須從頭開(kāi)始設(shè)計(jì)整個(gè)機(jī)器人,包括執(zhí)行器、電子設(shè)備、結(jié)構(gòu)、關(guān)節(jié)、操作系統(tǒng)、控件、固件、人工智能系統(tǒng)等。

復(fù)雜多樣的零部件需求,意味著要從全球不同的供應(yīng)商那里進(jìn)行采購(gòu),為了確保零部件的質(zhì)量和供應(yīng)的可靠性,還需要選擇合適的供應(yīng)商,并維持良好的合作關(guān)系,這又不得不投入大量時(shí)間進(jìn)行供應(yīng)商管理、評(píng)估和審查。

更重要的是,人形機(jī)器人對(duì)零部件高性能的要求,會(huì)產(chǎn)生較高的成本,如果未來(lái)要規(guī)?;a(chǎn)Figure01,Brett Adcock必須思考如何降低采購(gòu)和物流成本,來(lái)保證企業(yè)的利潤(rùn)。

在機(jī)器人領(lǐng)域,技術(shù)帶來(lái)的驚艷是一回事,但是如何在商業(yè)化上做好規(guī)?;质橇硪换厥隆?/p>

而這也不僅僅是Figure的挑戰(zhàn),也是所有人形機(jī)器人企業(yè)共同面臨的挑戰(zhàn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。