文 | 硅兔賽跑 魏瑪
編輯|Zuri 蔓蔓周
人才與能源,正在成為科技公司AI戰(zhàn)役中必奪的高地塔。
“這場AI的人才之戰(zhàn),是我見過的最瘋狂的人才爭奪戰(zhàn)!”馬斯克在推特上直言。
就在5月28日,這位特斯拉CEO創(chuàng)辦的AI初創(chuàng)公司——xAI在官網宣布融資60億美元,用于打造超級計算機,馬斯克稱之為“超級計算工廠”。誠然,這需要更多人才。馬斯克甚至表示,xAI如果不提供offer,人就被Open AI挖走了。
在這場誰也看不到未來確切形狀的人工智能大模型戰(zhàn)役中,投資一個靠譜的團隊,對于投資公司來說顯然是最有力的保障。這也是這場人才爭奪戰(zhàn)愈演愈烈的重要原因。
不過,“真正優(yōu)秀的人才通常不會主動找工作,因此需要去挖那些你看好的人才”。OpenAI創(chuàng)始人Sam Altman早年在他的文章中提及。
信息差是這場人才爭奪戰(zhàn)中決定勝負的關鍵。
我們的第一篇人才圖譜聚焦這個科技巨頭們重金押注的領域——具身智能。
如果說這場AI戰(zhàn)事的未來難以預測,具身智能或許是其中一種終極形態(tài)。英偉達CEO黃仁勛更是表示,下一個AI浪潮將是具身智能。
硅兔嘗試梳理了美國大公司,兩個AI黃浦軍?!雀韬陀ミ_的具身智能人才圖譜以及在其中的華裔大佬,或許能為希望在其中進行創(chuàng)業(yè)或投資的讀者提供按圖索驥的參考。
「1」根據谷歌和英偉達重點具身智能論文和項目一共梳理114名業(yè)界實戰(zhàn)大佬,其中谷歌占比60%,英偉達40%,男多(90%)女少(10%)。
「2」8%的研究員學術水平比肩美國科學院院士。59%的研究員屬于高水平段位。
「3」78%的研究員最高學歷水平為博士,研究生占比18%,本科生僅占比4%。
「4」華裔在谷歌和英偉達具身智能研究員中占比約27%。
「5」斯坦福向谷歌和英偉達輸送了最多具身智能大佬,其次是CMU和MIT,三家學校輸送的人才占比約1/3。
欲知數據詳解及華裔大佬履歷見下
「1」
共計248名研究員參與了谷歌和英偉達具身智能研究,剔除62名未在Google Scholar建檔的研究員,剩余186名研究員中,業(yè)界力量占六成、學界力量占四成。
具體來看,谷歌獨立研究能力更強,英偉達借助了多個頂尖學校的研究資源。參與英偉達機器人研究的高校研究人員達到45人,占比一半(51%);相較之下,谷歌的這個比例不到三分之一(27人,28%)。
「2」
聚焦業(yè)界人才,谷歌和英偉達114位研究員中,男性占比約90%,華裔占比約27%,博士學歷占比約78%。
在性別比例和族裔方面,谷歌和英偉達略有差異,谷歌似乎對女性更友好,有11名女性科學家加入,而英偉達只有2名。
英偉達華裔的比例更高,占比達40%,而這一比例在Google只有20%。
「3」
斯坦福向谷歌和英偉達輸送了最多具身智能大佬,其次是CMU和MIT,三家學校輸送的人才占比約1/3。
114位研究員最高學歷畢業(yè)的院校總共有51所大學。其中,斯坦福大學有16人,卡內基梅隆大學有14人,麻省理工學院有7人,這三所學校的人數占比約三分之一,而其他大多數學校只有一名學生。
絕大部分研究人員來自美國的院校,但歐洲也有兩所學校在具身智能領域產生了重大影響:英國倫敦帝國理工學院和牛津大學,畢業(yè)于這兩所學校的研究人員共有8人。牛津大學在深度學習方面積累了豐富的經驗,并且谷歌收購DeepMind后與牛津大學展開了合作,引入了深度學習領域的專家。例如,AlphaGo的研發(fā)團隊中就包括了3名牛津大學在職教授以及4位前牛津大學的研究人員。
「4」
8%的業(yè)界研究員學術水平比肩美國科學院院士。59%的業(yè)界研究員屬于高水平段位。谷歌研究員的學術能力相較英偉達更強。
我們采用被引用量和“h”指數來衡量學術水平?!癶”指數是一位作者至少具有相同引用次數(h)的最高發(fā)表論文數量。例如:某人的h指數是20,這表示他已發(fā)表的論文中,每篇至少被引用了20次的論文總共有20篇。
一般來說,h指數在10以上可以被認為是較高水平,h指數18屬于高水平,而成為美國科學院院士的一般要求是45以上。
這114名企業(yè)研究人員的h指數表現(xiàn)出了他們相當強的研究水平:89%的人的h指數大于10,59%的人的h指數大于18,而有8%的人的h指數甚至超過了45。
進一步比較谷歌和英偉達的學術水平會發(fā)現(xiàn),谷歌研究人員影響力明顯要比英偉達高。例如,谷歌企業(yè)研究人員引用量平均數和h指數平均數是12596和23,而英偉達的這一組數據為6418和21。
「5」
谷歌和英偉達各有約1/10的具身智能研究員離職加入其他公司。
谷歌70人中有7人離開,占比10%。目前在英偉達、蘋果、特斯拉、1x、OpenAI、Figure AI等企業(yè)就職,總體上來說離開谷歌的人才較少,絕大多數人才在Google DeepMind工作。
其中,Scott Reed 2016 年加入 Google DeepMind 從事控制和生成模型方面的工作,后加入英偉達成為GEAR 團隊的首席研究科學家。
注:谷歌離職研究員及去向
英偉達44名具身智能研究人員有4人離開,占比9%。一人去了谷歌,一人去了Allen Institute for AI研究機構,另外兩人選擇創(chuàng)業(yè)。
Igor Mordatch的研究興趣包括機器學習、機器人學和多智能體系統(tǒng),他曾是OpenAI的研究科學家,在斯坦福大學和Pixar動畫工作室擔任訪問研究員。他共同組織了OpenAI學者指導計劃,并擔任AI4All、Google CS研究指導計劃和Girls Inc.的導師和教學助理。離開英偉達后在Google DeepMind擔任研究科學家。他發(fā)布文章約123篇,Google Scholar h指數51,被引用量18752次。
注:英偉達離職研究員及去向
「6」
“美國科學院院士”學術水平(h指數大于45)的研究員,谷歌得6人,英偉達得1人。他們分別是(按照指數高低):
谷歌
Nicolas Heess
DeepMind研究科學家。
2011年發(fā)表論文《Learning a Generative Model of Images by Factoring Appearance and Shape》,彼時正在攻讀愛丁堡大學的神經信息學與計算神經科學博士學位,畢業(yè)后在DeepMind工作至今。
早期研究聚焦在機器視覺、機器學習、圖形/增強現(xiàn)實/游戲等領域,目前是英國UCL計算機系榮譽教授。
發(fā)布約224篇文章 ,Google Scholar h指數65,被引用量48917次。
Martin Riedmiller
DeepMind研究科學家。
1986-1996年在德國University of Karlsruhe(卡爾斯魯厄大學,現(xiàn)在的卡爾斯魯厄理工學院)學習計算機專業(yè),并取得博士學位。畢業(yè)后他一邊在學術界任教,一邊創(chuàng)業(yè)。
2002年- 2015年先后在University of Dortmund、University of Osnabrueck、University of Freiburg擔任教授,帶領Machine Learning Lab;2010 -2015年在德國巴登創(chuàng)立Cognit - Lab for learning machines。
2015年加入Google DeepMind全職工作。
他的研究領域聚焦人工智能、神經網絡、強化學習等,發(fā)布約188篇文章,Google Scholar h指數59,被引用量84113次。
Vikas Sindhwani
Google DeepMind研究科學家,領導著一個專注于解決機器人領域規(guī)劃、感知、學習和控制問題的研究小組。
他擁有芝加哥大學的計算機科學博士學位和印度理工學院(IIT)孟買分校的工程物理學士學位。
2008年-2015年在IBM T.J. Watson Research Center紐約分部負責機器學習組。2015年加入Google DeepMind工作至今。
擔任《機器學習研究交易》(TMLR)和《IEEE模式分析與機器智能交易》的編輯委員會成員;曾是NeurIPS、國際學習表示會議(ICLR)和知識發(fā)現(xiàn)與數據挖掘(KDD)的領域主席和高級程序委員會成員。
研究興趣廣泛涉及統(tǒng)計機器學習的核心數學基礎,以及構建大規(guī)模、安全、健康人工智能系統(tǒng)的端到端設計。
曾獲得人工智能不確定性(UAI-2013)最佳論文獎和2014年IBM Pat Goldberg紀念獎;并入圍了ICRA-2022杰出規(guī)劃論文獎和ICRA-2024機器人操作最佳論文獎的決賽。
發(fā)布約137篇文章,Google Scholar h指數52,被引用量17150次。
Vincent Vanhoucke
Google DeepMind杰出科學家、機器人技術部門高級總監(jiān),在谷歌工作超過16年。
擁有斯坦福大學電氣工程的博士學位(1999-2003)和巴黎中央理工學院的工程師學位。
曾領導Google Brain的視覺和感知研究,并負責谷歌語音搜索的語音識別質量團隊。共同創(chuàng)立了機器人學習會議(Conference on Robot Learning)。
研究涵蓋了分布式系統(tǒng)和并行計算、機器智能、機器感知、機器人和語音處理等多個領域。發(fā)布約64篇文章,Google Scholar h指數50,被引用量165519次。
Raia Hadsell
DeepMind研究與機器人技術高級總監(jiān),VP of Research。
2014年加入至今。
在Reed College獲得宗教學和哲學學士學位后(1990-1994),在紐約大學與Yann LeCun合作完成博士學位研究(2003-2008),集中于使用連體神經網絡(今天通常稱為“三元損失”)的機器學習、人臉識別算法,以及在野外使用深度學習進行移動機器人研究。論文“Learning Long-range vision for offroad robots”獲得了2009年的杰出論文獎。
在卡內基梅隆大學機器人研究所做博士后研究,與Drew Bagnell和Martial Hebert合作,然后成為新澤西州普林斯頓市SRI國際公司視覺與機器人組的研究科學家(2009-2014)。
加入DeepMind之后,研究重點放在人工通用智能領域的一些基本挑戰(zhàn)上,包括持續(xù)學習和遷移學習、用于機器人和控制問題的深度強化學習,以及導航的神經模型。是一個新開放期刊TMLR的創(chuàng)始人和主編,CoRL的執(zhí)行委員會成員,歐洲學習系統(tǒng)實驗室(ELLIS)的成員,也是NAISys(神經科學與人工智能系統(tǒng))的創(chuàng)始組織者之一。擔任CIFAR顧問,并曾擔任WiML(機器學習中的女性)執(zhí)行委員會成員。
發(fā)布約107篇文章,Google Scholar h指數45,被引用量36265次。
Nikhil J Joshi
資料有限,在印度印度理工學院(Indian Institute of Technology)獲得物理碩士學位,在印度基礎研究機構Tata Institute of Fundamental Research 獲得分子物理學博士學位。2017年加入Google Brain做軟件開發(fā),之前在多家企業(yè)任職。Google Scholar h指數45,被引用量8320次。
英偉達
Stan Birchfield
英偉達首席研究科學家和高級研究經理。
2016年加入,主要負責計算機視覺和機器人技術的交叉領域,包括學習、感知、以及人工智能介導的現(xiàn)實和交互。
1999年獲得斯坦福大學電氣工程博士學位,輔修計算機科學。
畢業(yè)后,加入灣區(qū)初創(chuàng)公司Quindi Corporation擔任研究工程師,開發(fā)智能數字音頻和視頻算法。
2013-2016年,加入微軟,負責開發(fā)計算機視覺和機器人技術的應用與地面實況導航系統(tǒng),并領導開發(fā)了自動攝像頭切換功能。
Google Scholar h指數56,被引用量14315次。
「7」
部分業(yè)界華裔大佬
這114名企業(yè)研究人員中共有31名華裔,重點介紹12名佼佼者,其中谷歌 4人,英偉達 6人,OpenAI 、1x各1人。
谷歌
Fei Xia(夏斐)
Google DeepMind高級研究科學家。
2016年畢業(yè)清華,2021年在斯坦福大學電氣工程系獲得了博士學位。
讀博期間曾在NVIDIA的Dieter Fox,Google的Alexander Toshev和Brian Ichter那里做過研究實習。在斯坦福大學完成博士學位后,于2021年秋季加入Google的機器人團隊。
研究興趣包括大規(guī)模和可轉移的機器人模擬,長期任務的學習算法,以及環(huán)境的幾何和語義表示的結合。最近研究方向是將基礎模型(Foundation Models)用于智能體的決策過程中。
學術成就包括在ICRA 2023會議上接受了5篇論文,在CoRL 2022會議上接受了4篇論文。
代表工作有GibsonEnv, iGibson, SayCan等,iGibson開發(fā)用于機器人學習的大規(guī)?;迎h(huán)境,以及在機器人控制策略中使用模仿學習和模型預測控制(MPC)的結合。Google Scholar h指數為33,引用量為12478。
Andy Zeng
Google DeepMind高級研究科學家。
在UC Berkeley獲得了計算機科學和數學的雙學士學位,并在普林斯頓大學獲得了計算機科學博士學位。2019年博士畢業(yè)后加入Google Brain工作,專注于機器學習,視覺,語言和機器人學習。
研究興趣包括機器人學習,使機器能夠智能地與世界互動并隨著時間的推移自我提高。
學術成就包括在各種會議上發(fā)表的論文,如ICRA,CVPR,CoRL等。
參與的重要項目包括PaLM-E。
Google Scholar h指數為32,引用量為12207。
Tianhe Yu
Google DeepMind研究科學家。
2017年在UC Berkeley獲得了計算機科學、應用數學和統(tǒng)計學的最高榮譽學士學位,2022年在斯坦福大學獲得了計算機科學博士學位,導師是Chelsea Finn。
2022年博士畢業(yè)后加入Google Brain工作,專注于機器學習,視覺,語言和機器人學習。
研究興趣包括機器學習,感知,控制,特別是離線強化學習(即從靜態(tài)數據集中學習),多任務和元學習。最近在探索在決策問題中利用基礎模型。
學術成就包括在各種會議上發(fā)表的論文,如ICRA,CVPR,CoRL等。
參與的重要項目包括PaLM-E。
Google Scholar h指數為25,引用量為7726。
Yuxiang Zhou
Google DeepMind高級研究工程師。
2010年至2018年間在英國倫敦帝國學院攻讀計算機科學碩士和博士學位,導師是Stefanos Zafeiriou教授。
2017年9月至2018年3月在Google Brain &DeepMind進行了深度強化學習和機器人學的研究實習,在2018年12月加入Google DeepMind,擔任研究工程師。
研究主題包括解決機器人學、第三人稱模仿學習、統(tǒng)計變形模型的密集形狀研究等。
Google Scholar h指數為17,引用量為3099。
英偉達
Linxi Fan(范林熙)
NVIDIA 高級研究科學家,也是 GEAR Lab的負責人。
在斯坦福大學視覺實驗室獲得博士學位,師從李飛飛教授。
曾在 OpenAI(與 Ilya Sutskever 和 Andrej Karpathy)、百度 AI 實驗室(與 Andrew Ng 和 Dario Amodei 合作)和 MILA(與 Yoshua Bengio 合作)實習。
研究探索了多模態(tài)基礎模型、強化學習、計算機視覺和大規(guī)模系統(tǒng)的前沿。
率先創(chuàng)建了 Voyager(第一個熟練玩 Minecraft 并持續(xù)引導其功能的 AI智能體)、MineDojo(通過觀看 100,000 個 Minecraft YouTube 視頻進行開放式智能體學習)、Eureka(一只 5 指機器人手,執(zhí)行極其靈巧的任務,如筆旋轉)和 VIMA(最早的機器人操作多模態(tài)基礎模型之一)。MineDojo 在 NeurIPS 2022 上獲得了優(yōu)秀論文獎。
Google Scholar h指數為18,引用量為5619。
Chen-Hsuan Lin
NVIDIA高級研究科學家。
本科畢業(yè)于中國臺灣大學,獲得了電氣工程學士學位。在卡內基梅隆大學獲得了機器人學博士學位,導師是 Simon Lucey,受 NVIDIA 研究生獎學金支持。
曾在 Facebook AI 研究和 Adobe 研究進行了實習。
致力于計算機視覺、計算機圖形學和生成 AI 應用。解決涉及 3D 內容創(chuàng)建的問題感興趣,包括 3D 重建、神經渲染、生成模型等。
研究獲得了 TIME 雜志 2023 年度最佳發(fā)明獎。
Google Scholar h指數為15,引用量為2752。
De-An Huang(黃德安)
NVIDIA 研究科學家,專業(yè)領域是計算機視覺、機器人學、機器學習、生物信息學。
斯坦福大學獲得了計算機科學博士學位,導師是李飛飛和胡安·卡洛斯·尼布爾斯。在卡內基梅隆大學攻讀碩士學位期間,曾與Kris Kitani合作,在中國臺灣大學攻讀本科期間,曾與Yu-Chiang Frank Wang合作。
曾是NVIDIA 西雅圖機器人實驗室的 Dieter Fox、Facebook 應用機器學習的 Vignesh Ramanathan 和 Dhruv Mahajan、Microsoft 雷德蒙德研究院的 Zicheng Liu 和匹茲堡迪斯尼研究院的 Leonid Sigal 的實習生。
Google Scholar h指數為32,引用量為4848。
Kaichun Mo(莫凱淳)
NVIDIA Dieter Fox 教授領導的西雅圖機器人實驗室的研究科學家。
在斯坦福大學獲得了計算機科學博士學位,導師是 Leonidas J. Guibas 教授。曾隸屬于斯坦福大學的幾何計算組和人工智能實驗室。在2016年加入斯坦福之前,在上海交通大學計算機科學ACM班獲得了學士學位(PS:上海ACM榮譽班直博率高達92%,3次斬獲ACM國際大學生程序設計競賽全球總冠軍,培養(yǎng)出640名計算機“最強大腦”)。GPA為3.96/4.30(排名1/33)。
專業(yè)領域是3D計算機視覺、圖形學、機器人學和3D深度學習,尤其關注對象為中心的3D深度學習,以及針對3D數據的結構化視覺表示學習。
Google Scholar h指數為20,引用量為17654。
Xinshuo Weng
NVIDIA 研究科學家,與 Marco Pavone 合作。
她在卡內基梅隆大學與 Kris Kitani 合作獲得了機器人學博士學位(2018-2022 年)和計算機視覺碩士學位(2016-17 年)。本科畢業(yè)于武漢大學。
她還曾與 Facebook Reality Lab 的 Yaser Sheikh 合作,擔任研究工程師,幫助構建“逼真的遠程呈現(xiàn)”。
研究興趣在于自主系統(tǒng)的生成模型和3D計算機視覺。涵蓋目標檢測、多目標跟蹤、重新識別、軌跡預測和運動規(guī)劃等任務。開發(fā)了 3D 多對象跟蹤系統(tǒng),例如在 GitHub 上獲得 >1,300 顆星的 AB3DMOT。
Google Scholar h指數為23,引用量為3472。
Zhiding Yu (禹之鼎)
NVIDIA 機器學習研究小組的首席研究科學家和負責人。
2017年從卡內基梅隆大學獲得了電子與計算機工程博士學位,并于2012年從中國香港科技大學獲得了電子與計算機工程碩士學位。于2008年從華南理工大學聯(lián)合電氣工程(馮炳權實驗班)本科畢業(yè)。
研究興趣主要集中在深度表示學習、弱監(jiān)督/半監(jiān)督學習、遷移學習和深度結構化預測,以及它們在視覺和機器人問題中的應用。
WAD Challenge@CVPR18 中的領域自適應語義分割賽道的獲獎者。在 WACV15 獲得了最佳論文獎。
Google Scholar h指數為42,引用量為17064。
OpenAI
Mengyuan Yan
技術人員。
2014年獲得北京大學物理學學士,2020年獲得斯坦福大學電子電器工程博士學位。
Interactive Perception and Robot Learning Lab(IPRL)的成員,該實驗室是斯坦福AI Lab的一部分,導師是Jeannette Bohg和Leonidas Guibas。
研究領域包括計算機視覺、機器學習、機器人學和生成模型。
共發(fā)布28篇文章,Google scholar h指數15,被引用量4664次。
1X Technologies
Eric Jang
AI副總裁。
2016年畢業(yè)于布朗大學碩士,專業(yè)是計算機科學。
2016 - 2022年在Google工作,擔任機器人高級研究科學家,
研究主要集中在將機器學習原則應用于機器人領域,開發(fā)了 Tensor2Robot,這是機器人操作團隊和 Everyday Robots 使用的 ML 框架(直到 TensorFlow 1 被棄用);是Brain Moonshot團隊的共同負責人,該團隊制作了SayCan。
2022年4月離開Google Robotics,加入1X Technologies(原名Halodi Robotics),帶領團隊完成了兩項重要工作,一個是通過端到端的神經網絡,實現(xiàn)了人形機器人EVE的自主性。
7篇論文的第一作者,合著15+以上,Google scholar h指數為23,引用量為11213。寫了一本書《AI is Good for You》講訴人工智能的歷史和未來。
「8」
通過重點研究論文和實驗項目鎖定谷歌和英偉達的具身智能人才。
谷歌重基礎模型研究,其具身智能人才參與的重點研究發(fā)布包括:
SayCan:能夠將高層級任務拆解為可執(zhí)行的子任務。
Gato:將多模態(tài)數據進行token化輸入Transformer架構。
RT-1:將機器人軌跡數據輸入Transformer架構,得到離散化動作token。
PaLM-E:在PaLM通用模型基礎上,進一步提升了多模態(tài)性能。
RoboCat:將多模態(tài)模型Gato與機器人數據集相結合,使得RoboCat具備在模擬環(huán)境與物理環(huán)境中處理語言、圖像和動作等任務的能力。
RT-2:是RT-1模型與PaLM-E模型的結合,使機器人模型從VLM進化到VLA。
RT-X:在保持原有架構的基礎上,全面提升了具身智能的五種能力。
以上模型逐步實現(xiàn)了模型自主可靠決策、多模態(tài)感知和實時精準運控能力的結合,同時展現(xiàn)出泛化能力和思維鏈能力。
綜合以上研究論文,共梳理143名谷歌研究員。
英偉達重仿真模擬訓練,其具身智能人才參與的實驗項目包括:
Eureka:利用大型語言模型進行強化學習的獎勵機制設計
Voyager:開放世界中用大語言模型驅動智能體
MimicPlay:通過觀察人類動作進行長距離模仿學習
VIMA:多模態(tài)指令操控執(zhí)行通用機器人任務
MinDojo:利用互聯(lián)網規(guī)模級數據建立開放具身智能體
此外,英偉達在2024年重點發(fā)力具身智能,官宣成立通用具身智能研究GEAR(Generalist Embodied Agent Research)實驗室,主要圍繞多模態(tài)基礎模型、通用型機器人研究、虛擬世界中的基礎智能體以及模擬與合成數據技術四個關鍵領域開展研究,旨在推動大模型等AI技術由虛擬世界向現(xiàn)實世界發(fā)展。
本文首先梳理了上述提到的Google核心項目論文共7篇,每篇論文都詳細列出了項目研究人員,并清晰地公布了他們的具體工作內容。
英偉達的研究頁面公布了參與robotics項目的人員名單,共計54名;另外綜合考慮GEAR發(fā)布的所有論文作者,共梳理出105名具身智能研究人員。
附錄:谷歌、英偉達具身智能百人列表
附錄:論文及網頁
Google核心項目論文:
Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
https://say-can.github.io/
AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents
https://auto-rt.github.io/
SARA-RT: Scaling up Robotics Transformers with Self-Adaptive Robust Attention
https://arxiv.org/pdf/2312.01990
RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation
https://arxiv.org/pdf/2306.11706
RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
https://arxiv.org/pdf/2311.01977
RT-1: Robotics Transformer for real-world control at scale
https://arxiv.org/pdf/2212.06817
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
https://arxiv.org/pdf/2307.15818
NVIDIA研究robotics論文研究人員名單:
https://research.NVIDIA.com/research-area/robotics
GEAR團隊發(fā)表論文:
https://research.NVIDIA.com/labs/gear/publications/