界面新聞記者 | 陸柯言
界面新聞編輯 | 宋佳楠
8月21日,2024世界機(jī)器人大會在北京亦莊拉開帷幕。無論是從參展商還是觀展人數(shù)來看,這都是歷年來熱度最高的一屆大會。這背后,與具身智能概念的爆火相關(guān)。
在眾多參展的機(jī)器人公司中,來自杭州的宇樹科技頗受關(guān)注。
今年5月,這家公司發(fā)布了人形機(jī)器人G1。它能夠完成站起、坐下折疊、舞棍等高難度動作,也具備精準(zhǔn)操作物體的能力。更重要的是,G1的售價僅為9.9萬元,這也是雙足機(jī)器人價格首次被打到10萬元以內(nèi)。
而在近日,宇樹科技又發(fā)布了G1的量產(chǎn)版本,成為國內(nèi)少數(shù)幾家具備人形機(jī)器人量產(chǎn)能力的公司。宇樹科技創(chuàng)始人兼CEO王興興在接受界面新聞采訪時表示,G1的銷量基本符合預(yù)期,目前已在科研、教育、工廠等場景落地應(yīng)用。
他還解答了外界對宇樹科技和人形機(jī)器人的諸多疑問,包括降本方法、量產(chǎn)挑戰(zhàn)、商用進(jìn)展、技術(shù)限制,以及人形機(jī)器人距離iPhone時刻究竟還有多少年。
采訪中,“干活”和“通用AI”成為反復(fù)出現(xiàn)的高頻詞匯。王興興認(rèn)為,人形機(jī)器人當(dāng)下的能力還不足以實現(xiàn)真正的“干活”,但這應(yīng)是它最具價值的部分。由于人形機(jī)器人缺乏像ChatGPT那樣的通用模型,當(dāng)前行業(yè)面臨著極大阻礙。
“我一直有種感覺,人形機(jī)器人公司還是要克制一點(diǎn),不要把自己做成傳統(tǒng)的自動化公司?!彼f。
王興興并不喜歡將今年定義為人形機(jī)器人的商用元年,認(rèn)為那還為時過早,畢竟頭部公司的年出貨量也不過百來臺。但他依然對人形機(jī)器人的商用未來持樂觀態(tài)度,“如果拿大語言模型來對比,今年就像是ChatGPT誕生的前兩年?!?/span>
在他看來,盡管這一領(lǐng)域的技術(shù)路線還有許多模糊地帶,但當(dāng)更多聰明人和資本涌入,轉(zhuǎn)折點(diǎn)也將很快到來。
以下為訪談實錄(有不改變原意的刪減及編輯):
AI讓做機(jī)器人變簡單
問:為什么G1可以做到9.9萬的價格?宇樹是如何降本的?
王興興:價格更友好,產(chǎn)品才有更多人買,才能在全球范圍內(nèi)推動行業(yè)進(jìn)步。
我們的價格相對比較低,因為我們做四足機(jī)器人已經(jīng)很多年了,對于機(jī)械、成本、生產(chǎn)都有比較多的經(jīng)驗,而四足和人形機(jī)器人很多設(shè)計是類似的,這也是我們低價的基礎(chǔ)。宇樹的四足機(jī)器人最低賣到9000多元一臺,對比機(jī)器人還有點(diǎn)貴。
要把所有的零部件,哪怕一個螺絲釘都設(shè)計到極致是非常耗時間的。公司到現(xiàn)在已經(jīng)成立了8年,有好幾款產(chǎn)品實現(xiàn)了量產(chǎn),但我們依然很有壓力,因為每一個零部件都要精細(xì)設(shè)置,有些技術(shù)要求高的零部件都是以0.01毫米起步考慮的。
因為目前的量不夠,如果我們價格定得太低,對行業(yè)和公司都不好。我們還是希望價格相對合理,可能到明年后年出貨量會進(jìn)一步提升,機(jī)器人的能力也會越來越強(qiáng),價格可以做更好地調(diào)整。
問:宇樹是做四足機(jī)器人起家的。四足機(jī)器人和人形機(jī)器人的關(guān)系,像是人從爬行到站立起來的過程嗎?
王興興:從技術(shù)上或者進(jìn)化角度,你可以這么認(rèn)為,畢竟靈長類動物本身也是從4條腿進(jìn)化過來的。機(jī)器人也是一樣,為什么早年大家做四足機(jī)器人更多,因為它的穩(wěn)定性、負(fù)載、續(xù)航能力更強(qiáng),技術(shù)成熟度更高。
過去一兩年,國內(nèi)很多人形機(jī)器人公司都出來了。為什么他們做得很快?原因非常簡單,他們用了大量開源的四足機(jī)器人技術(shù),包括算法和硬件。
問:對于設(shè)計風(fēng)格是怎么想的?
王興興:我們希望產(chǎn)品盡量簡潔,無論是外觀還是功能,都不要弄得太復(fù)雜,像iPhone一樣。交互的簡潔性是對產(chǎn)品最極致,也是最重要的要求。
問:為何宇樹和波士頓動力的Atlas都采用了是三指設(shè)計?
王興興:目前全球人形機(jī)器人的方案不是特別統(tǒng)一,客戶的需求也不一樣,最典型的代表就是手。G1高度大概只有1.3米多,如果我們給他裝了五指,會發(fā)現(xiàn)這個手有點(diǎn)太大了,我覺得非常不好看。而三指手大部分產(chǎn)品都能用,抓東西都可以抓得很牢,包括波士頓動力的Atlas在工廠里干活,三指就夠用了。出于實用性的角度,大家還是希望機(jī)器人的手勢越簡單越好。
目前來說,把物體從這里抓到那里,只要一個關(guān)節(jié)就夠用了,如果要做更精細(xì)的事情,比如說拿電烙鐵去焊接,或拿筷子,三個手指也基本夠用。大家可以想象一下,如果自己只有兩三個手指,其實能干很多活。
AI的加入使得對硬件的自由度、數(shù)量、外觀靈活度要求都越來越低,這是一種趨勢。假使你隨便找?guī)讉€關(guān)節(jié)電機(jī)和木頭,把它拼在一起,搭出人形,都很可能讓它走起來或者干點(diǎn)活。
不急于商業(yè)化
問:宇樹和其他人形機(jī)器人公司最大的不同點(diǎn)是什么?
王興興:宇樹目前主要做高性能機(jī)器人,未來希望做全球最領(lǐng)先的、能給大家產(chǎn)生價值的機(jī)器人,無論是四足還是人形機(jī)器人,我們都愿意去做。形態(tài)是非常自由的一件事情。如果說和別的公司不一樣,那就是我們發(fā)展時間更長,產(chǎn)品成熟度更好一些。
問:現(xiàn)在宇樹的商業(yè)化進(jìn)展是一個什么階段?人形機(jī)器人在哪些場景落地比較多?
王興興:我們很早就開始做商業(yè)化,2016年成立,2017年開始預(yù)售接訂單,2018年正式發(fā)布。人形機(jī)器人的客戶目前比較雜,有個人用戶、科研教育公司、AI公司、科技公司,還有一些工廠。
問:最近智元也有產(chǎn)品發(fā)布,他們看上去尤為在意商業(yè)化進(jìn)展,但宇樹似乎淡定一些?
王興興:我們確實不是特別急,還是希望能把產(chǎn)品做得更好之后再去推商業(yè)化,但也不排斥?,F(xiàn)在會有一些公司合作,但我們產(chǎn)品太多了,不可能把所有事情都宣傳得很到位,所以大家不太知道。
問:早期業(yè)界普遍不看好人形機(jī)器人,宇樹怎么看待外界的聲音?對于人形機(jī)器人的發(fā)展策略,宇樹是有自己明確的發(fā)展規(guī)劃,還是隨著社會共識變化而改變?
王興興:基本上還是遵循社會共識。雷總說過,順勢而為,做得太早或太晚,都是非常不好的一件事。
以前有很多投資人問我,你們做不做人形機(jī)器人?我斬釘截鐵地說,我不做。我在大一寒假就做過仿生機(jī)器人,但產(chǎn)品沒有達(dá)到我的預(yù)期。當(dāng)時全球的人形機(jī)器人都不是特別理想,性能上不去,也沒辦法到能干活的階段,所以我當(dāng)時就決定不做了。
但到2021、2022年,在馬斯克的帶領(lǐng)下,全球開始非常關(guān)注人形機(jī)器人,尤其是2022年底大模型誕生之后,AI技術(shù)產(chǎn)生了明顯的質(zhì)變,也開始有客戶找上我們。社會的共識足夠了,有人愿意買,我們才會做。
問:很多具身智能公司會把宇樹定位成機(jī)器人的“身體”,自己則是機(jī)器人的“大腦”,你認(rèn)可這樣的說法嗎?軟硬件企業(yè)未來更多會走向競爭還是合作?
王興興:非常歡迎客戶用我們的硬件,哪怕把我軟件全刪了,我們也非常歡迎,初衷還是希望更多人來用我們的機(jī)器人。
定位這個問題,我們過去有跟一些AI公司合作,自己也會做一些AI,如果完全不做的話,大家不知道我們機(jī)器人AI效果怎么樣,總要有一個初始的軟件系統(tǒng)。但我們對AI的投資是比較克制的,因為太燒錢了。
機(jī)器人肯定是我們的立身之本,同時也歡迎和各種大模型公司合作,特別是愿意在我們的產(chǎn)品上標(biāo)配做得好的大模型,把我們的軟件替換成它的也可以。
問:資本進(jìn)入之后,會不會跟原有的研發(fā)團(tuán)隊產(chǎn)生路線上的分歧?是否會針對投資方美團(tuán)的業(yè)務(wù)推出一些特定機(jī)器人?
王興興:我們?nèi)谫Y和估值還是比較克制的,投資方對具體的公司管理不怎么參與。一件事情能做或是不做,他們不太會有大的意見。美團(tuán)確實是我們最大的股東,后續(xù)也可能有合作的機(jī)會。
問:今年國內(nèi)很多機(jī)器人宣布進(jìn)廠打工,但大多不具備實際操縱的能力,你怎么看?宇樹機(jī)器人針對工廠端的落地有哪些規(guī)劃?
王興興:這的確是一個趨勢,但目前還沒有形成商業(yè)閉環(huán),即產(chǎn)生的商業(yè)價值是正向的,要比人的成本更低。我們公司目前主要是賣本體的,并不是說一定要做工業(yè),如果科研、教育公司買我們的產(chǎn)品,或者個人用戶買來玩,也完全歡迎。
但工業(yè)領(lǐng)域也在推進(jìn),比如去做一些生產(chǎn)資料分配或者簡單的搬運(yùn),推進(jìn)的速度沒那么快。我們對這個行業(yè)還是比較有耐心的,不會把自己逼那么緊,更多還是尊重市場的反應(yīng)。等到技術(shù)和產(chǎn)品大家接觸到一定程度,有一些商業(yè)推廣的苗頭了,我們再大規(guī)模推廣。
問:未來在研發(fā)上的迭代方向是怎樣的?
王興興:成本更加合理,性能和外觀做得更好,用戶體驗才能更好,這是最主要的大方向。再者,要時刻了解全球的技術(shù)和產(chǎn)品導(dǎo)向,不能松懈,不能覺得今天已經(jīng)做得不錯了,未來一兩年就不改進(jìn)了。
機(jī)器人離“iPhone時刻”還遠(yuǎn)
問:是否認(rèn)同“今年是人形機(jī)器人的商用元年”?
王興興:今年的體量其實很小,即使在商業(yè)化的情況下,有些公司最多也就小幾十臺這種級別。我個人不是很喜歡這個定義。
問:預(yù)計通用機(jī)器人領(lǐng)域何時會出現(xiàn)“iPhone時刻”?AI化模型給機(jī)器人帶來了哪些明顯的能力提升,目前還存在哪些挑戰(zhàn)?
王興興:還是稍微有點(diǎn)遠(yuǎn)。iPhone的出現(xiàn)是綜合性技術(shù)的突破,原來已經(jīng)有了觸摸屏、CPU、交互界面,然后喬布斯提出了終極產(chǎn)品構(gòu)想,再把這些技術(shù)都整合在一起(才有了iPhone)。
可能現(xiàn)在大家還覺得機(jī)器人有點(diǎn)傻,就只能干一些固定的活,但我覺得今年年底之前,至少全球有一家公司能把通用機(jī)器人的AI模型做出來。當(dāng)然,這個只是接口,也不是“iPhone時刻”。真正的“iPhone時刻”,還是希望在工業(yè)或服務(wù)業(yè)有終端產(chǎn)品的出現(xiàn),行業(yè)的出貨量暴增,可能還要三四年,但不會超過五年。
ChatGPT沒出來之前,大家覺得大語言模型的東西很散,什么都干不了,出來以后就不一樣了。我們做的很多機(jī)器人也是這樣,可能今天還在地上打滾,突然訓(xùn)練出一個模型,放上去之后就非常智能,所以我比較樂觀。
問:技術(shù)層面,人形機(jī)器人目前最大的挑戰(zhàn)在哪里?
王興興:最大的限制門檻還是AI方面不太夠,機(jī)器人AI的能力在全球范圍都沒有達(dá)到一個像初代ChatGPT那樣的水平。
模型、AI訓(xùn)練數(shù)據(jù)集、AI產(chǎn)品的落地部署、硬件層面都遠(yuǎn)遠(yuǎn)不夠,但這不是理論上的門檻。工程上就是要把成本做得更低,外觀做得更極致、功能更豐富,這是工程問題,這部分時間是可以預(yù)估的。
如果今天有人把AI機(jī)器人的通用模型做出來,找我們定制人形機(jī)器人,我可以保證年底之前就能完成,做10萬個人形機(jī)器人都行。我加大產(chǎn)能和研發(fā)效率,投大量的人,甚至通宵都沒問題,因為硬件本身不是問題,最大的問題還是機(jī)器人的AI能力沒有足夠的突破。
當(dāng)然,硬件也要繼續(xù)完善,比如電池容量做更大,減速機(jī)的壽命可以做得更長,負(fù)載能力更好,靈巧操作的精度更高,視覺感知的分辨率更高,執(zhí)行速度更快,但這些都不是最大的限制。
問:現(xiàn)階段的大模型可以解決人形機(jī)器人哪些技術(shù)問題?大模型和AI的應(yīng)用有望降低機(jī)器人的研發(fā)成本嗎?
王興興:目前大家說大模型時,多是指大語言模型或者多模態(tài)模型,這部分可以給機(jī)器人用,但不是全部。機(jī)器人要發(fā)展下去,單純的大語言模型是不夠的。
例如在工廠里做事的機(jī)器人,完全不用說話,給他布置一個任務(wù),看一張照片,或者敲一個數(shù)字進(jìn)去,讓他干活就行了。無論是在工廠擰螺絲,還是在家洗衣做飯,機(jī)器人最主要的還是要能干活。對話的話,一部手機(jī)就可以做得很好。
對于干活這個點(diǎn),目前的大語言模型可以用到一部分,但更多是要做一個機(jī)器人的模型出來,比如把圖像數(shù)據(jù)、關(guān)節(jié)指令數(shù)據(jù)、激光雷達(dá)或者別的數(shù)據(jù)加到里面。特斯拉最近就在招數(shù)據(jù)的采集工人,然后去做訓(xùn)練,待遇也不錯。這和大語言模型沒多大關(guān)系,更多是模仿學(xué)習(xí)。
目前整個體系不太成熟,包括機(jī)器人應(yīng)該在哪里裝相機(jī)、裝幾個、傳感器數(shù)據(jù)怎么采,要不要數(shù)據(jù)傳感器等問題。國外有些流派,他連靈巧手都不想用,只想用個爪子,但有些就希望手指更加靈活,每個手指上有豐富的傳感器。每個人的想法都不太一樣,很難評價哪個路線是錯誤的。
問:你之前提過會考慮在機(jī)器人上添加更多的觸覺感知,觸覺的重要性在哪兒?瓶頸是什么?
王興興:觸覺非常重要。假設(shè)一個人全身皮膚的觸覺都喪失了,影響會非常大,可能抓不住東西,走路也會跌倒。但目前的觸覺確實做得非常糟糕,很多機(jī)械臂基本上沒有觸覺。這個事情不好做,它要求靈敏度,意味著要部署成百上千個觸點(diǎn)或者觸覺傳感器,萬一磕碰,損壞的概率是非常大的,這也是做觸覺最大的瓶頸和量產(chǎn)的挑戰(zhàn)。如果一臺機(jī)器人全身有1000個觸點(diǎn),那量產(chǎn)一定要保證做得非常好,想想都是令人崩潰的事情。
問:物理交互可以加深模仿和強(qiáng)化學(xué)習(xí),但這項技術(shù)現(xiàn)在還不成熟,之后可以如何改進(jìn)?
王興興:我一直覺得物理交互非常重要,要真正讓機(jī)器人去生活中幫忙處理事情,如果只用虛擬的數(shù)據(jù)去訓(xùn)練是遠(yuǎn)遠(yuǎn)不夠的。虛擬數(shù)據(jù)最多達(dá)到一種程度,即大概知道要干什么,比如往前走,或者把什么東西放在一起,但要組裝精密零部件這類工作,誤差會比較大,沒辦法完全契合地進(jìn)行實物操作。還是要非常有必要去做一些實物訓(xùn)練,把最后的閉環(huán)跑通。
問:你多次提到機(jī)器人最重要的就是干活,有沒有什么具體的期待?
王興興:干活也分好幾個階段,當(dāng)下的AI可以做一些模仿學(xué)習(xí)的措施,如果是固定工位,比如說把一個電池從這里拿到那里,全球很多公司都能做,成功率基本上接近100%。
更進(jìn)一步的話,還是希望它能在工廠里做更復(fù)雜一點(diǎn)的事情。比如拆裝零部件,或者做一些農(nóng)業(yè)相關(guān)的工作,就不是簡單的抓取,這件事明后年基本就可以做了。
終極階段,希望真的非常通用,比如隨便給一個人形機(jī)器看一張照片或者說一下,它就可以組裝產(chǎn)品或者整理桌子,即使它完全沒見過桌子原本長什么樣。
最主要的還是AI軟件去發(fā)力。AI軟件沒有突破,硬件做得再好也不行。我一直有個感覺,現(xiàn)在人形機(jī)器人需要克制一下,不要把自己做著做著變成一家傳統(tǒng)自動化公司。你要跟自動化行業(yè)卷效率是永遠(yuǎn)卷不過的,還是要把AI軟件做好之后,去做一些更有價值的事情。
問:機(jī)器人行業(yè)借助AI熱度重新火起來后,產(chǎn)業(yè)端和銷售端相較于過去有哪些明顯的不同?
王興興:變化非常大。與過去幾十年比,最近一兩年新的AI和機(jī)器人浪潮完全是兩個世界,技術(shù)的認(rèn)可度和資本的熱度都不一樣,全球的大公司、中小企業(yè)、地方政府都非常關(guān)注機(jī)器人。但由于它還只能做一些固定的事情,大家不太滿意,整個行業(yè)發(fā)展跟通用AI落后了差不多10年的。我覺得會慢慢趕上來,因為有更多的聰明人、更多的資本和關(guān)注進(jìn)來了。
問:現(xiàn)在機(jī)器人都還在投入期,預(yù)計何時能到盈虧平衡?
王興興:具體要看怎么算。我們還是保留了合理的利潤,希望有更多的機(jī)器人出貨量,這是最重要的。
如果投入大量的AI與人力,可能很難實現(xiàn)盈虧平衡,因為AI太燒錢了。我們對AI的投入相對克制一些。
問:大模型領(lǐng)域很信仰堆算力,人形機(jī)器人能否靠投入大量的數(shù)據(jù)和算力把通用模型搞得更好?
王興興:如果對大公司或者底子比較厚的公司,有財力和人力,可以多投入一點(diǎn),但我們還是要算賬。
其實國內(nèi)大公司對AI的投入也是比較克制的,團(tuán)隊大一點(diǎn)的可能有小幾百人,少一點(diǎn)不過幾十個人。目前機(jī)器人的通用AI模型技術(shù)路線沒那么清晰,如果投入過多的財力和人力,會有使不上勁的感覺。
OpenAI當(dāng)時投入大,是他們內(nèi)部已經(jīng)驗證了模型是OK的,再加算力和資源效果愈發(fā)明顯,那就得加大投入。而在機(jī)器人領(lǐng)域,現(xiàn)在很難說哪個方向特別正確。特斯拉要搞的模仿學(xué)習(xí)可能堆數(shù)據(jù)是有效果,但更大的驗證不太確定。
問:如何看待當(dāng)下機(jī)器人行業(yè)的競爭格局?中小公司的機(jī)會在哪里?
王興興:中小公司競爭也是我一直在考慮的問題。最重要的是得保持對前沿技術(shù)的敏感度,得看到未來,要足夠靈活。如果能預(yù)估未來一兩年甚至五年以后的技術(shù)路線和行業(yè)格局,提前布局,肯定死不了。
這方面大公司反倒有點(diǎn)難,因為內(nèi)部流程復(fù)雜、團(tuán)隊間有競爭,資源溝通的順暢性(比較低),甚至有時大公司招人都沒有小公司方便。
問:中國、日本和美國在人形機(jī)器人領(lǐng)域算是跑得比較快的,你覺得中國企業(yè)擁有哪些優(yōu)勢?
王興興:每個國家都有自己的特點(diǎn),而且做得都還不錯。中國的優(yōu)勢可能在于工業(yè)底子比較厚,劣勢就是AI人才非常缺乏,整個教育體系對AI人才的培養(yǎng)還是不太夠。