正在閱讀:

對(duì)話理想汽車?yán)上膛螅褐邱{“差生”如何追趕特斯拉

掃一掃下載界面新聞APP

對(duì)話理想汽車?yán)上膛螅褐邱{“差生”如何追趕特斯拉

理想汽車如何在不到兩年時(shí)間里,迭代三代版本,最終將與特斯拉的差距縮短至半年以內(nèi)。

圖片來(lái)源:界面新聞圖庫(kù)

界面新聞?dòng)浾?| 周姝祺

很長(zhǎng)一段時(shí)間里,理想汽車都難以接住華為問(wèn)界在智能駕駛上的宣傳攻勢(shì)。這項(xiàng)原本不被納入消費(fèi)者購(gòu)車決策前三的選項(xiàng),成為了兩家汽車品牌在一線競(jìng)爭(zhēng)中的關(guān)鍵角色。

理想汽車銷售人員會(huì)通過(guò)座艙體驗(yàn)等其他產(chǎn)品功能,遮掩智駕相對(duì)落后的事實(shí),甚至避免直接提及華為。彼時(shí),與理想L系列車型直接對(duì)標(biāo)的問(wèn)界新M7打開(kāi)了用戶對(duì)于智駕功能的認(rèn)知,也帶動(dòng)品牌銷量以令行業(yè)震驚的速度高漲。

但今年劇情的走向出現(xiàn)反轉(zhuǎn)。理想汽車成為了繼華為之后,第二家“全國(guó)都能開(kāi)”的汽車制造商,反超了原本領(lǐng)先的蔚來(lái)和小鵬。

理想汽車銷售也開(kāi)始主動(dòng)向用戶推售帶高階智駕軟件的MAX版本車型。最新的數(shù)據(jù)是,用戶選購(gòu)AD Max的定單占比從5月份的37%提升至7月的49%,其中L9 MAX版本的選購(gòu)率達(dá)到75%。

讓一些競(jìng)爭(zhēng)對(duì)手感到不安的是,理想汽車似乎在極短時(shí)間里,快速?gòu)浹a(bǔ)了智駕短板。這位后來(lái)者在傳統(tǒng)人工書(shū)寫(xiě)規(guī)則的時(shí)代沒(méi)有表現(xiàn)出領(lǐng)先優(yōu)勢(shì),卻在切換至業(yè)內(nèi)前沿的端到端技術(shù)后,突然逆襲,這讓外界備受關(guān)注。

業(yè)內(nèi)對(duì)理想智駕的態(tài)度正在發(fā)生微妙的轉(zhuǎn)變。一位華為智駕工程師向界面新聞透露,過(guò)去內(nèi)部只關(guān)注特斯拉和小鵬汽車的研發(fā)進(jìn)展,但現(xiàn)在理想汽車也被納入了討論話題圈。

理想汽車曾是“蔚小理”里最不被看好的一家,所堅(jiān)持的增程式路線被詬病技術(shù)落后。但現(xiàn)在它的銷量位居新勢(shì)力榜首,而增程路線也在被越來(lái)越多汽車公司采納。

智能駕駛領(lǐng)域復(fù)制了一樣的劇情。理想汽車智能駕駛研發(fā)副總裁郎咸朋和智能駕駛研發(fā)負(fù)責(zé)人賈鵬接受界面新聞等媒體采訪時(shí)復(fù)盤(pán),智駕“差生”是如何在不到兩年時(shí)間里,迭代三代版本,最終將與特斯拉的差距縮短至半年以內(nèi)。

由于起步時(shí)期對(duì)利潤(rùn)和效益的極致追求,理想汽車在智駕領(lǐng)域的投入保守,一直是業(yè)內(nèi)追隨者的姿態(tài)。

拉長(zhǎng)時(shí)間線來(lái)看,在理想汽車剛剛成立那年,華為即啟動(dòng)了自動(dòng)駕駛技術(shù)研發(fā)。而當(dāng)2021年理想汽車開(kāi)始自研智駕之時(shí),同期蔚來(lái)汽車和小鵬汽車已經(jīng)落地了高速領(lǐng)航輔助駕駛功能(NOA)。

在去年行業(yè)忙著城區(qū)NOA的比賽時(shí),理想汽車CEO李想在9月召開(kāi)的秋季戰(zhàn)略會(huì)上反思,理想汽車在智駕上全力投入偏晚。他第一次明確,智能駕駛是公司核心戰(zhàn)略,要在2024年成為智駕的絕對(duì)頭部。

理想汽車開(kāi)始大規(guī)模招人,成為當(dāng)時(shí)為數(shù)不多能夠給出高薪資和多崗位的企業(yè)。當(dāng)時(shí)理想汽車認(rèn)為學(xué)習(xí)華為的軍團(tuán)作戰(zhàn)模式,可以通過(guò)人才的密度換取研發(fā)的速度。

但實(shí)際落地進(jìn)程并不順利。一年時(shí)間里,理想汽車先后嘗試了神經(jīng)先驗(yàn)網(wǎng)絡(luò)(NPN)和無(wú)圖兩個(gè)方案,投入大量人力迭代、更新和測(cè)試,始終無(wú)法達(dá)到擬人程度。

接連切換技術(shù)路線,讓郎咸朋很快意識(shí)到技術(shù)路線的瓶頸。在他看來(lái),面對(duì)無(wú)窮的真實(shí)場(chǎng)景,人永遠(yuǎn)無(wú)法提前對(duì)所有情況都進(jìn)行定義。要想從根本解決問(wèn)題,端到端是當(dāng)下的最優(yōu)技術(shù)路徑。

不同于傳統(tǒng)自動(dòng)駕駛系統(tǒng)分為感知、規(guī)劃、定位和決策等多個(gè)模塊,端到端架構(gòu)強(qiáng)調(diào)感知決策一體化,其最大優(yōu)勢(shì)是減少模塊間信息傳遞損失,提高智駕能力上限。自動(dòng)駕駛開(kāi)始真正依靠人工智能而不是詳盡的地圖繪制和編碼來(lái)取得進(jìn)步。

特斯拉是率先切換這一前沿技術(shù)的汽車公司,緊接著是國(guó)內(nèi)智能電動(dòng)汽車廠商和華為等自動(dòng)駕駛供應(yīng)商。在“開(kāi)城競(jìng)賽”的同時(shí),汽車公司在端到端上掀起新一輪的比拼。理想汽車在新技術(shù)路線上再一次嘗試。

在實(shí)際落地過(guò)程中,小鵬汽車和華為采用“分段式端到端”,將感知和規(guī)控用分別的模型取代,而特斯拉和理想汽車是更為激進(jìn)的“One Model”(一個(gè)大模型)。為了安全冗余,理想汽車沒(méi)有把控制模塊包含在內(nèi)。

但只有端到端是不夠的。郎咸朋告訴界面新聞,不管是端到端還是傳統(tǒng)的感知決策模型,都是根據(jù)已知的數(shù)據(jù),訓(xùn)練或者人工設(shè)計(jì)規(guī)則去滿足場(chǎng)景條件。這蘊(yùn)含的潛在問(wèn)題是,如果是沒(méi)見(jiàn)過(guò)的場(chǎng)景,系統(tǒng)即無(wú)法很好工作。

一個(gè)典型的實(shí)踐是賈鵬在美國(guó)體驗(yàn)特斯拉全自動(dòng)駕駛軟件FSD V12.3版本。他發(fā)現(xiàn)FSD在東西海岸城市的用戶體驗(yàn)差異明顯。從波士頓到紐約,特斯拉在不熟悉和道路工況更復(fù)雜的城市上,智駕表現(xiàn)急劇下降,接管率大幅提升。

國(guó)內(nèi)的道路場(chǎng)景比紐約要更加多變。在車端芯片算力有限的前提下,單獨(dú)的端到端模型難以保證無(wú)瑕疵運(yùn)轉(zhuǎn)。想要讓自動(dòng)駕駛真正像人一樣思考,理想汽車引入了VLM視覺(jué)語(yǔ)言模型,并從去年9月開(kāi)始了端到端+VLM雙系統(tǒng)的預(yù)研。

李想在今年6月召開(kāi)的中國(guó)汽車重慶論壇上,首次向公眾披露了雙系統(tǒng)的概念。系統(tǒng)1運(yùn)行端到端模型,解決行駛過(guò)程中需要及時(shí)響應(yīng)的路況信息;系統(tǒng)2可以像人類一樣讀懂導(dǎo)航地圖等信息內(nèi)容,處理復(fù)雜和需要邏輯推演的泛化場(chǎng)景。

賈鵬進(jìn)一步向界面新聞表示,VLM在整套架構(gòu)中承擔(dān)的角色是,將決策結(jié)果和參考軌跡提供給系統(tǒng)1,但端到端模型不一定會(huì)采用這個(gè)推理信息。這保證了系統(tǒng)1的唯一決策權(quán),避免了兩套系統(tǒng)運(yùn)行打架。

不過(guò),所有投入端到端的智駕團(tuán)隊(duì)還需要解決同一個(gè)問(wèn)題:怎么測(cè)試和驗(yàn)證端到端模型的能力。

端到端架構(gòu)使用的神經(jīng)網(wǎng)絡(luò)大模型是“黑盒”,VLM也是“黑盒”,兩者最大的弊端在于失效模式不清晰。這讓架構(gòu)的上限遠(yuǎn)高于傳統(tǒng)規(guī)控時(shí)代,但同樣也會(huì)出現(xiàn)低級(jí)錯(cuò)誤,難以為安全兜底。

由于沒(méi)有類目清晰的代碼,這些問(wèn)題的篩選查找也更為麻煩。一位智駕研發(fā)人員向界面新聞解釋,如果不知道端到端模型運(yùn)行中哪里有問(wèn)題,就無(wú)法針對(duì)性采集數(shù)據(jù)制定訓(xùn)練策略。

理想汽車的解題思路是引入世界模型,對(duì)系統(tǒng)1和系統(tǒng)2進(jìn)行考試。這個(gè)用來(lái)驗(yàn)收訓(xùn)練成果的考試模型在理想團(tuán)隊(duì)內(nèi)部被稱作系統(tǒng)3。

系統(tǒng)3的題庫(kù)一方面來(lái)自精挑細(xì)選的理想汽車車主實(shí)際駕駛過(guò)程中的“真題”和“錯(cuò)題”,且能夠提供這部分“題目”的車主比例不到3%;另一方面,理想汽車會(huì)通過(guò)重建和生成的方式形成“模擬題”,覆蓋更多的場(chǎng)景。只有模型通過(guò)測(cè)驗(yàn)獲得高分后,才將被逐步推送給用戶。

理想汽車?yán)孟到y(tǒng)3取代了過(guò)去鋪研發(fā)人員,實(shí)地駕駛成百上千公里的傳統(tǒng)路測(cè)方式。這不僅加快了模型迭代速度,且節(jié)省了高昂的人力成本。

同樣利用虛擬仿真能力的還有蔚來(lái)汽車。這家新勢(shì)力上個(gè)月向外界釋放了國(guó)內(nèi)首個(gè)智能駕駛世界模型。該模型具備空間重建和時(shí)間推演能力,在100毫秒內(nèi)推演出216種可能發(fā)生的場(chǎng)景,尋找到最優(yōu)決策。

賈鵬指出,如果效仿SORA純生成視頻的方式,會(huì)造成較多的幻覺(jué),生產(chǎn)場(chǎng)景沒(méi)有辦法直接拿來(lái)使用。理想汽車是把真實(shí)場(chǎng)景重建后,在這基礎(chǔ)上進(jìn)行泛化生成,并提供可參考的,符合物理規(guī)律的場(chǎng)景。

進(jìn)入到自動(dòng)駕駛時(shí)代,各家汽車公司比拼的不僅是人才深度,還有數(shù)據(jù)和算力,這將直接影響端到端的上限能力。

郎咸朋提到,理想汽車相似的車型結(jié)構(gòu),讓所有車上攝像頭配置、安裝位置都一致,可以實(shí)現(xiàn)數(shù)據(jù)共用。并且,理想汽車從2019年第一代理想ONE開(kāi)始進(jìn)行數(shù)據(jù)閉環(huán)研發(fā),有效累積訓(xùn)練數(shù)據(jù)量超過(guò)12億公里,比另外兩家頭部新勢(shì)力更早,也更多。

小鵬汽車CEO何小鵬提出的一個(gè)觀點(diǎn)是,數(shù)據(jù)多并不代表能夠做好自動(dòng)駕駛。郎咸朋同樣指出,除了數(shù)據(jù)的數(shù)量和質(zhì)量,更難的是數(shù)據(jù)的配比。

今年剛開(kāi)始投入雙系統(tǒng)項(xiàng)目研發(fā)時(shí),理想智駕團(tuán)隊(duì)發(fā)現(xiàn),測(cè)試車在等紅燈時(shí),總想變到其他車道。后來(lái)他們才知道,導(dǎo)致問(wèn)題的原因是刪除了用戶在紅燈前長(zhǎng)時(shí)間等待的數(shù)據(jù)。這一原本被忽視的數(shù)據(jù),卻是讓模型學(xué)會(huì)分辨等紅燈和堵車兩種不同等待場(chǎng)景的關(guān)鍵信息。

事實(shí)上,能夠快速發(fā)現(xiàn)并解決這一問(wèn)題,還在于理想汽車在云端建立了數(shù)據(jù)挖掘模型、場(chǎng)景理解模型等多個(gè)小模型。這套完整的工具鏈和基礎(chǔ)能力建設(shè),是自動(dòng)駕駛里進(jìn)行數(shù)據(jù)篩選和清洗的重要一環(huán)。

郎咸朋認(rèn)為,這就好比去醫(yī)院看病,一個(gè)問(wèn)題場(chǎng)景出現(xiàn)后在內(nèi)部有個(gè)“分診臺(tái)”,自動(dòng)分析歸屬于哪個(gè)場(chǎng)景問(wèn)題,給到模型分診建議,然后再拿著分診建議找到相類似的場(chǎng)景數(shù)據(jù),補(bǔ)充到訓(xùn)練樣本里,進(jìn)行下一步迭代。

在賈鵬看來(lái),將來(lái)大部分智駕工程師是在做數(shù)據(jù)和模型測(cè)試這一頭一尾的工作,反而中間模型本身的結(jié)構(gòu)設(shè)計(jì),可能不需要過(guò)多工程師。

隨著業(yè)務(wù)模式發(fā)生改變,理想汽車調(diào)整了人力配置和組織架構(gòu)。傳統(tǒng)自動(dòng)駕駛模塊化的組織架構(gòu)體系里,從場(chǎng)景設(shè)計(jì)到研發(fā)、測(cè)試、交付和問(wèn)題修改,都需要大量人力投入,但轉(zhuǎn)為端到端后,數(shù)據(jù)搜集、樣本制作、自動(dòng)化訓(xùn)練以及自動(dòng)化迭代等領(lǐng)域,人的參與度大幅降低。

理想汽車智駕團(tuán)隊(duì)經(jīng)歷了一輪擴(kuò)張后,又裁退了不少人。郎咸朋解釋說(shuō):“當(dāng)時(shí)我們要擴(kuò)張智駕團(tuán)隊(duì),是從流程看,全國(guó)各地都要鋪得很大,需要更多研發(fā)工程師以及測(cè)試人員。但是再往后走,即使我可以投資源招到這些人,但是招到之后我依然解決不了往后走到更高能力的問(wèn)題?!?/p>

當(dāng)前理想汽車智駕團(tuán)隊(duì)按照RD (Research Development) 和PD(Product Development)兩條脈絡(luò)研發(fā)。前者負(fù)責(zé)技術(shù)預(yù)研,探索下一代人工智能發(fā)展方向,后者則進(jìn)行量產(chǎn)工作,針對(duì)現(xiàn)行版本向用戶交付和維護(hù)。

在外界看來(lái),理想汽車智駕進(jìn)步速度突飛猛進(jìn),但從去年9月開(kāi)始,包括智駕團(tuán)隊(duì)在內(nèi)的工程師每周都有人工智能周例會(huì),固定和李想分享關(guān)于自動(dòng)駕駛、智能空間等人工智能相關(guān)話題。關(guān)于雙系統(tǒng)的討論,就是這樣 “慢慢聊出來(lái)的”。

理想汽車的快速進(jìn)步讓外界懷疑,關(guān)于智能駕駛的故事劇本里,不存在領(lǐng)先者恒定的高枕無(wú)憂。但郎咸朋指出,后來(lái)者參與游戲的難度實(shí)際上正變得越來(lái)越高。自動(dòng)駕駛比拼的不僅是技術(shù),更是資金,是企業(yè)的盈利能力。

一個(gè)最直觀的數(shù)據(jù)是,理想汽車目前僅是在算力的租卡投入上,一年的開(kāi)銷要達(dá)到10億元人民幣,而未來(lái)進(jìn)入到更高級(jí)別自動(dòng)駕駛研發(fā),一年的訓(xùn)練算力花銷將高達(dá)10億美金。據(jù)悉,理想汽車和小鵬汽車智駕云端最新算力儲(chǔ)備分別是4.5EFLOPS和2.51EFLOPS。

過(guò)去國(guó)內(nèi)新勢(shì)力都是摸索特斯拉的技術(shù)演進(jìn)方向,步步跟隨。但在特斯拉不再對(duì)外披露技術(shù)方案,理想汽車提供了破除端到端迷霧的一套全新方法論。上述華為研發(fā)人員向界面新聞表示, 這將有利于中國(guó)智駕不再沿著特斯拉的路徑,亦步亦趨的模仿。

但也有不少智駕工程師懷疑雙系統(tǒng)模式。在他們看來(lái),通過(guò)數(shù)據(jù)和算力的不斷提升,可以解決解決極端場(chǎng)景或者未知問(wèn)題,不需要繞彎路利用VLM模型來(lái)輔助,并且VLM模型在實(shí)踐中能夠起到多大的作用也存疑。

端到端是不是走向更高級(jí)別自動(dòng)駕駛的的技術(shù)終解,郎咸朋以及投身于國(guó)內(nèi)智駕熱潮中的先行者,可能都沒(méi)有辦法給出回答。

而對(duì)于真正購(gòu)車的用戶來(lái)說(shuō),采用何種自動(dòng)駕駛技術(shù)從來(lái)不是關(guān)注的重點(diǎn),安全、可靠、好用和穩(wěn)定等實(shí)際體驗(yàn)指標(biāo)才是他們?cè)u(píng)判優(yōu)劣的恒定標(biāo)準(zhǔn)。

界面新聞節(jié)選了與郎咸朋和賈鵬的對(duì)話內(nèi)容,在不影響原意情況下有所編輯:

站在了無(wú)人區(qū)的邊緣

Q:目前理想這套端到端+VLM的智駕架構(gòu),是基于什么想法設(shè)計(jì)的,未來(lái)發(fā)展如何

郎咸朋:去年戰(zhàn)略會(huì)時(shí)期,我們參考了包括特斯拉FSD在內(nèi)的智駕方案,發(fā)現(xiàn)想要實(shí)現(xiàn)自動(dòng)駕駛的目標(biāo),存在很大的挑戰(zhàn)。不管是端到端,還是傳統(tǒng)的感知決策模型,他的做法都是給大量數(shù)據(jù),根據(jù)已知的數(shù)據(jù),訓(xùn)練或者人工設(shè)計(jì)規(guī)則去滿足這些場(chǎng)景條件,這樣潛在問(wèn)題是,如果沒(méi)見(jiàn)過(guò)的場(chǎng)景,系統(tǒng)就不能很好的工作。

基于讓系統(tǒng)能正確地處理復(fù)雜或者未知的場(chǎng)景,我們探索怎么樣能讓車輛,有像人一樣的思考和決策或者判斷推理的能力。我們采用了跟人類大腦的思考和認(rèn)知方式比較類似的雙系統(tǒng)架構(gòu)。系統(tǒng)1我們用的是端到端模型,系統(tǒng)2用了VLM模型。將來(lái)有沒(méi)有其他的實(shí)現(xiàn)方式,我們也在迭代當(dāng)中,但是現(xiàn)在來(lái)看,這套框架和實(shí)驗(yàn)方式是比較適合后面做自動(dòng)駕駛的。

賈鵬:我們?cè)囻{特斯拉FSD V12.3版本時(shí),發(fā)現(xiàn)它在東西海岸表現(xiàn)差異非常大,這促進(jìn)我們思考,在國(guó)內(nèi)做自動(dòng)駕駛,車端芯片算力有限的情況下,單獨(dú)一個(gè)模型不是那么有效。我們當(dāng)時(shí)想法是在端到端的基礎(chǔ)上再加一個(gè)真正有泛化能力,有邏輯思考能力的一套系統(tǒng),自然而然就想到了VLM,雖然它不直接控車,但是會(huì)提供決策。

往后發(fā)展,隨著算力提升,模型規(guī)模變大,系統(tǒng)1和系統(tǒng)2能夠做到比較緊耦合。也可以借鑒現(xiàn)在多模態(tài)模型的大模型發(fā)展趨勢(shì),統(tǒng)一語(yǔ)音,視覺(jué)和激光雷達(dá)。這套范式可以支撐我們做到L4,可能是我們實(shí)現(xiàn)真正人工智能的終極答案。再往后,可能就真的到了無(wú)人區(qū),實(shí)現(xiàn)自動(dòng)駕駛真的大規(guī)模量產(chǎn),但目前還沒(méi)有看到哪一家跑出來(lái)。

Q:端到端和VLM這兩個(gè)系統(tǒng)是怎么協(xié)作的?

賈鵬:這倆系統(tǒng)一直都在實(shí)時(shí)運(yùn)行。一塊跑端到端,因?yàn)槟P托∫恍?,幀率比較高,比如跑個(gè)十幾赫茲。另外VLM模型規(guī)模參數(shù)量就大的多,是22億參數(shù),目前能跑到大概3.4赫茲3至4赫茲。VLM一直都在,只不過(guò)它是把決策結(jié)果和參考的軌跡扔給系統(tǒng)1,端到端模型推理后,決定是否用這個(gè)信息。

Q:現(xiàn)在VLM是必須的嗎,在這里面的必要性的程度大概是有多少?

郎咸朋:我們?cè)贚3起主要的支撐作用還是端到端,它是代表這個(gè)人正常的行為下的駕駛能力,但到了L4一定是VLM或者大模型,這里面起到更重要的作用??赡?0%以上的時(shí)間它不起作用,但它起作用這些內(nèi)容,是決定這個(gè)系統(tǒng)到底是L3還是L4的一個(gè)關(guān)鍵點(diǎn),是能真正的能去應(yīng)對(duì)這種未知的場(chǎng)景。

Q:怎么測(cè)試和驗(yàn)證端到端模型,形成固定向用戶推送的周期?

郎咸朋:端到端時(shí)代一個(gè)很大的挑戰(zhàn)是,它對(duì)于能力的評(píng)價(jià)和測(cè)試是不確定性的。除了系統(tǒng)1和系統(tǒng)2,我們用端到端和VLM來(lái)落地之外,還有一個(gè)試驗(yàn)?zāi)P徒邢到y(tǒng)3。這個(gè)試驗(yàn)?zāi)P蛯?shí)際上是一個(gè)考試系統(tǒng),是用試驗(yàn)?zāi)P偷哪芰χ亟ɑ蛘呱煽碱}。

這個(gè)考題我們有自己的真題庫(kù),人在路上駕駛的正確行為。它的設(shè)計(jì)是根據(jù)用戶,產(chǎn)品和整車的主觀評(píng)價(jià)團(tuán)隊(duì),跟我們內(nèi)部的一些老司機(jī)共同制定的老司機(jī)標(biāo)準(zhǔn)。我們的80萬(wàn)車主里面,每個(gè)人都打了分?jǐn)?shù),90分以上的我們稱之為老司機(jī),這個(gè)比例大概是占我們所有司機(jī)的3%左右。

在正常的測(cè)試和開(kāi)車過(guò)程中,用戶的接管和退出,這些是我們的錯(cuò)題庫(kù)。我們還要生成一些模擬題。我們會(huì)對(duì)每一版模型根據(jù)它的考試分?jǐn)?shù)去決定它是否可以迭代到車上去,進(jìn)行下一步驗(yàn)證?!?/p>

賈鵬:有特別長(zhǎng)尾的問(wèn)題,這樣的數(shù)據(jù)就沒(méi)辦法去真實(shí)獲取,有一部分生成的工作。我們的世界模型不是純生成,我們覺(jué)得純生成式模型幻覺(jué)很多很多,沒(méi)辦法真的拿去用,我們是重建加生成結(jié)合在一起,生成的是符合世界規(guī)律的,也是符合物理規(guī)律的。

比規(guī)模和質(zhì)量更重要的,是數(shù)據(jù)配比

Q:在數(shù)據(jù)這一塊,打算怎么采集或者說(shuō)一些更高效的方式?

郎咸朋:我們的車L789長(zhǎng)得都挺像,但這里有巨大的本質(zhì)好處是我們的數(shù)據(jù)可以共用,所有車上攝像頭配置,包括安裝位置都大體一致。而且從2019年第一代理想one開(kāi)始,就做數(shù)據(jù)閉環(huán)研發(fā)。到了L789階段,我們有80萬(wàn)車主,積累了超過(guò)12億公里的有效訓(xùn)練數(shù)據(jù)量,是國(guó)內(nèi)最多的沒(méi)有之一。

小鵬最早是在2021年開(kāi)始做這件事情,它的車型也有很多的變化,有轎車、SUV、MPV,它形態(tài)都不太一樣。蔚來(lái)是從ET7開(kāi)始,之前都是供應(yīng)商方案,它會(huì)更晚一點(diǎn),大概在2022年左右。

Q:怎么考慮做數(shù)據(jù)的篩選和清理,現(xiàn)在大部分的精力是投入到數(shù)據(jù)這一塊的工作,大概會(huì)占什么樣的精力?

郎咸朋:我們現(xiàn)在發(fā)現(xiàn),訓(xùn)練端到端模型,跟古代煉丹沒(méi)什么區(qū)別,怎么配比讓自動(dòng)駕駛的體驗(yàn)會(huì)更好。今年比較早期做項(xiàng)目,我們發(fā)現(xiàn)模型訓(xùn)練出來(lái)等紅燈的時(shí)候,車的行為比較怪異,總是想變到旁邊的車道。后來(lái)明白我們?cè)谟?xùn)練時(shí)候,刪除了很多在紅燈之前等待的數(shù)據(jù),我們覺(jué)得等了幾十秒或者一分鐘的數(shù)據(jù)沒(méi)有用。但后來(lái)發(fā)現(xiàn)這份數(shù)據(jù)非常重要,它教會(huì)了這個(gè)模型,有的時(shí)候是需要等待的,不是一旦你慢下來(lái)就要插空,就要變道。

Q:你們現(xiàn)在發(fā)現(xiàn)紅綠燈的問(wèn)題,然后去定位紅綠燈的數(shù)據(jù)缺失,跟以前的方式,難度是差不多的嗎?

郎咸朋:我們有一套工具鏈,發(fā)現(xiàn)一個(gè)badcase,這case回來(lái)之后,內(nèi)部有一個(gè)“分診臺(tái)”系統(tǒng)。一個(gè)場(chǎng)景問(wèn)題上來(lái),會(huì)自動(dòng)分析它應(yīng)該屬于哪一類的場(chǎng)景問(wèn)題,會(huì)給一個(gè)模型的分診建議,然后再拿著分診建議去找到相類似的場(chǎng)景。其實(shí)最終還是回歸到需要補(bǔ)充或者替代什么樣的數(shù)據(jù)到我們現(xiàn)在的訓(xùn)練樣本里,然后再進(jìn)行下一步的訓(xùn)練。

賈鵬:模型主要兩個(gè)方面,一是數(shù)據(jù)的配方,類似的場(chǎng)景到底要加多少,能把問(wèn)題解決掉,這是一個(gè)know-how,不同的場(chǎng)景對(duì)數(shù)據(jù)的要求不一樣。第二點(diǎn)是模型的超參,加入新的數(shù)據(jù)后,模型參數(shù)如何調(diào)整,一般情況下有5至6版模型會(huì)同時(shí)提交訓(xùn)練,然后看哪一版解決了問(wèn)題,同時(shí)得分也高。

Q:算力現(xiàn)在到了什么規(guī)模?

賈鵬:云端算力,我覺(jué)得各家口徑不太一樣。至少云供應(yīng)商的數(shù)據(jù)我們應(yīng)該是最多的,這個(gè)跟每年的花費(fèi)有關(guān)系,一年下來(lái)小10個(gè)億,你得有利潤(rùn)。

郎咸朋:我們明年就會(huì)有一個(gè)指數(shù)上升。到了世界模型,理論上來(lái)說(shuō)想恢復(fù)物理世界上所有東西,它的量可能是沒(méi)法估計(jì)的。我們預(yù)計(jì),如果做到 L3和L4自動(dòng)駕駛,一年的訓(xùn)練算力花銷得到10億美金,將來(lái)我們拼的就是算力和數(shù)據(jù),背后拼的是錢(qián),還是盈利能力。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

理想汽車

5k
  • 理想汽車:上周銷量1.19萬(wàn)輛
  • 中概股美股盤(pán)前漲跌不一,理想汽車跌近4%

特斯拉

9.2k
  • 乘聯(lián)會(huì):特斯拉中國(guó)11月批發(fā)銷量預(yù)估為78856輛
  • 11月特斯拉上海超級(jí)工廠國(guó)內(nèi)銷量超7.3萬(wàn)輛

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

對(duì)話理想汽車?yán)上膛螅褐邱{“差生”如何追趕特斯拉

理想汽車如何在不到兩年時(shí)間里,迭代三代版本,最終將與特斯拉的差距縮短至半年以內(nèi)。

圖片來(lái)源:界面新聞圖庫(kù)

界面新聞?dòng)浾?| 周姝祺

很長(zhǎng)一段時(shí)間里,理想汽車都難以接住華為問(wèn)界在智能駕駛上的宣傳攻勢(shì)。這項(xiàng)原本不被納入消費(fèi)者購(gòu)車決策前三的選項(xiàng),成為了兩家汽車品牌在一線競(jìng)爭(zhēng)中的關(guān)鍵角色。

理想汽車銷售人員會(huì)通過(guò)座艙體驗(yàn)等其他產(chǎn)品功能,遮掩智駕相對(duì)落后的事實(shí),甚至避免直接提及華為。彼時(shí),與理想L系列車型直接對(duì)標(biāo)的問(wèn)界新M7打開(kāi)了用戶對(duì)于智駕功能的認(rèn)知,也帶動(dòng)品牌銷量以令行業(yè)震驚的速度高漲。

但今年劇情的走向出現(xiàn)反轉(zhuǎn)。理想汽車成為了繼華為之后,第二家“全國(guó)都能開(kāi)”的汽車制造商,反超了原本領(lǐng)先的蔚來(lái)和小鵬。

理想汽車銷售也開(kāi)始主動(dòng)向用戶推售帶高階智駕軟件的MAX版本車型。最新的數(shù)據(jù)是,用戶選購(gòu)AD Max的定單占比從5月份的37%提升至7月的49%,其中L9 MAX版本的選購(gòu)率達(dá)到75%。

讓一些競(jìng)爭(zhēng)對(duì)手感到不安的是,理想汽車似乎在極短時(shí)間里,快速?gòu)浹a(bǔ)了智駕短板。這位后來(lái)者在傳統(tǒng)人工書(shū)寫(xiě)規(guī)則的時(shí)代沒(méi)有表現(xiàn)出領(lǐng)先優(yōu)勢(shì),卻在切換至業(yè)內(nèi)前沿的端到端技術(shù)后,突然逆襲,這讓外界備受關(guān)注。

業(yè)內(nèi)對(duì)理想智駕的態(tài)度正在發(fā)生微妙的轉(zhuǎn)變。一位華為智駕工程師向界面新聞透露,過(guò)去內(nèi)部只關(guān)注特斯拉和小鵬汽車的研發(fā)進(jìn)展,但現(xiàn)在理想汽車也被納入了討論話題圈。

理想汽車曾是“蔚小理”里最不被看好的一家,所堅(jiān)持的增程式路線被詬病技術(shù)落后。但現(xiàn)在它的銷量位居新勢(shì)力榜首,而增程路線也在被越來(lái)越多汽車公司采納。

智能駕駛領(lǐng)域復(fù)制了一樣的劇情。理想汽車智能駕駛研發(fā)副總裁郎咸朋和智能駕駛研發(fā)負(fù)責(zé)人賈鵬接受界面新聞等媒體采訪時(shí)復(fù)盤(pán),智駕“差生”是如何在不到兩年時(shí)間里,迭代三代版本,最終將與特斯拉的差距縮短至半年以內(nèi)。

由于起步時(shí)期對(duì)利潤(rùn)和效益的極致追求,理想汽車在智駕領(lǐng)域的投入保守,一直是業(yè)內(nèi)追隨者的姿態(tài)。

拉長(zhǎng)時(shí)間線來(lái)看,在理想汽車剛剛成立那年,華為即啟動(dòng)了自動(dòng)駕駛技術(shù)研發(fā)。而當(dāng)2021年理想汽車開(kāi)始自研智駕之時(shí),同期蔚來(lái)汽車和小鵬汽車已經(jīng)落地了高速領(lǐng)航輔助駕駛功能(NOA)。

在去年行業(yè)忙著城區(qū)NOA的比賽時(shí),理想汽車CEO李想在9月召開(kāi)的秋季戰(zhàn)略會(huì)上反思,理想汽車在智駕上全力投入偏晚。他第一次明確,智能駕駛是公司核心戰(zhàn)略,要在2024年成為智駕的絕對(duì)頭部。

理想汽車開(kāi)始大規(guī)模招人,成為當(dāng)時(shí)為數(shù)不多能夠給出高薪資和多崗位的企業(yè)。當(dāng)時(shí)理想汽車認(rèn)為學(xué)習(xí)華為的軍團(tuán)作戰(zhàn)模式,可以通過(guò)人才的密度換取研發(fā)的速度。

但實(shí)際落地進(jìn)程并不順利。一年時(shí)間里,理想汽車先后嘗試了神經(jīng)先驗(yàn)網(wǎng)絡(luò)(NPN)和無(wú)圖兩個(gè)方案,投入大量人力迭代、更新和測(cè)試,始終無(wú)法達(dá)到擬人程度。

接連切換技術(shù)路線,讓郎咸朋很快意識(shí)到技術(shù)路線的瓶頸。在他看來(lái),面對(duì)無(wú)窮的真實(shí)場(chǎng)景,人永遠(yuǎn)無(wú)法提前對(duì)所有情況都進(jìn)行定義。要想從根本解決問(wèn)題,端到端是當(dāng)下的最優(yōu)技術(shù)路徑。

不同于傳統(tǒng)自動(dòng)駕駛系統(tǒng)分為感知、規(guī)劃、定位和決策等多個(gè)模塊,端到端架構(gòu)強(qiáng)調(diào)感知決策一體化,其最大優(yōu)勢(shì)是減少模塊間信息傳遞損失,提高智駕能力上限。自動(dòng)駕駛開(kāi)始真正依靠人工智能而不是詳盡的地圖繪制和編碼來(lái)取得進(jìn)步。

特斯拉是率先切換這一前沿技術(shù)的汽車公司,緊接著是國(guó)內(nèi)智能電動(dòng)汽車廠商和華為等自動(dòng)駕駛供應(yīng)商。在“開(kāi)城競(jìng)賽”的同時(shí),汽車公司在端到端上掀起新一輪的比拼。理想汽車在新技術(shù)路線上再一次嘗試。

在實(shí)際落地過(guò)程中,小鵬汽車和華為采用“分段式端到端”,將感知和規(guī)控用分別的模型取代,而特斯拉和理想汽車是更為激進(jìn)的“One Model”(一個(gè)大模型)。為了安全冗余,理想汽車沒(méi)有把控制模塊包含在內(nèi)。

但只有端到端是不夠的。郎咸朋告訴界面新聞,不管是端到端還是傳統(tǒng)的感知決策模型,都是根據(jù)已知的數(shù)據(jù),訓(xùn)練或者人工設(shè)計(jì)規(guī)則去滿足場(chǎng)景條件。這蘊(yùn)含的潛在問(wèn)題是,如果是沒(méi)見(jiàn)過(guò)的場(chǎng)景,系統(tǒng)即無(wú)法很好工作。

一個(gè)典型的實(shí)踐是賈鵬在美國(guó)體驗(yàn)特斯拉全自動(dòng)駕駛軟件FSD V12.3版本。他發(fā)現(xiàn)FSD在東西海岸城市的用戶體驗(yàn)差異明顯。從波士頓到紐約,特斯拉在不熟悉和道路工況更復(fù)雜的城市上,智駕表現(xiàn)急劇下降,接管率大幅提升。

國(guó)內(nèi)的道路場(chǎng)景比紐約要更加多變。在車端芯片算力有限的前提下,單獨(dú)的端到端模型難以保證無(wú)瑕疵運(yùn)轉(zhuǎn)。想要讓自動(dòng)駕駛真正像人一樣思考,理想汽車引入了VLM視覺(jué)語(yǔ)言模型,并從去年9月開(kāi)始了端到端+VLM雙系統(tǒng)的預(yù)研。

李想在今年6月召開(kāi)的中國(guó)汽車重慶論壇上,首次向公眾披露了雙系統(tǒng)的概念。系統(tǒng)1運(yùn)行端到端模型,解決行駛過(guò)程中需要及時(shí)響應(yīng)的路況信息;系統(tǒng)2可以像人類一樣讀懂導(dǎo)航地圖等信息內(nèi)容,處理復(fù)雜和需要邏輯推演的泛化場(chǎng)景。

賈鵬進(jìn)一步向界面新聞表示,VLM在整套架構(gòu)中承擔(dān)的角色是,將決策結(jié)果和參考軌跡提供給系統(tǒng)1,但端到端模型不一定會(huì)采用這個(gè)推理信息。這保證了系統(tǒng)1的唯一決策權(quán),避免了兩套系統(tǒng)運(yùn)行打架。

不過(guò),所有投入端到端的智駕團(tuán)隊(duì)還需要解決同一個(gè)問(wèn)題:怎么測(cè)試和驗(yàn)證端到端模型的能力。

端到端架構(gòu)使用的神經(jīng)網(wǎng)絡(luò)大模型是“黑盒”,VLM也是“黑盒”,兩者最大的弊端在于失效模式不清晰。這讓架構(gòu)的上限遠(yuǎn)高于傳統(tǒng)規(guī)控時(shí)代,但同樣也會(huì)出現(xiàn)低級(jí)錯(cuò)誤,難以為安全兜底。

由于沒(méi)有類目清晰的代碼,這些問(wèn)題的篩選查找也更為麻煩。一位智駕研發(fā)人員向界面新聞解釋,如果不知道端到端模型運(yùn)行中哪里有問(wèn)題,就無(wú)法針對(duì)性采集數(shù)據(jù)制定訓(xùn)練策略。

理想汽車的解題思路是引入世界模型,對(duì)系統(tǒng)1和系統(tǒng)2進(jìn)行考試。這個(gè)用來(lái)驗(yàn)收訓(xùn)練成果的考試模型在理想團(tuán)隊(duì)內(nèi)部被稱作系統(tǒng)3。

系統(tǒng)3的題庫(kù)一方面來(lái)自精挑細(xì)選的理想汽車車主實(shí)際駕駛過(guò)程中的“真題”和“錯(cuò)題”,且能夠提供這部分“題目”的車主比例不到3%;另一方面,理想汽車會(huì)通過(guò)重建和生成的方式形成“模擬題”,覆蓋更多的場(chǎng)景。只有模型通過(guò)測(cè)驗(yàn)獲得高分后,才將被逐步推送給用戶。

理想汽車?yán)孟到y(tǒng)3取代了過(guò)去鋪研發(fā)人員,實(shí)地駕駛成百上千公里的傳統(tǒng)路測(cè)方式。這不僅加快了模型迭代速度,且節(jié)省了高昂的人力成本。

同樣利用虛擬仿真能力的還有蔚來(lái)汽車。這家新勢(shì)力上個(gè)月向外界釋放了國(guó)內(nèi)首個(gè)智能駕駛世界模型。該模型具備空間重建和時(shí)間推演能力,在100毫秒內(nèi)推演出216種可能發(fā)生的場(chǎng)景,尋找到最優(yōu)決策。

賈鵬指出,如果效仿SORA純生成視頻的方式,會(huì)造成較多的幻覺(jué),生產(chǎn)場(chǎng)景沒(méi)有辦法直接拿來(lái)使用。理想汽車是把真實(shí)場(chǎng)景重建后,在這基礎(chǔ)上進(jìn)行泛化生成,并提供可參考的,符合物理規(guī)律的場(chǎng)景。

進(jìn)入到自動(dòng)駕駛時(shí)代,各家汽車公司比拼的不僅是人才深度,還有數(shù)據(jù)和算力,這將直接影響端到端的上限能力。

郎咸朋提到,理想汽車相似的車型結(jié)構(gòu),讓所有車上攝像頭配置、安裝位置都一致,可以實(shí)現(xiàn)數(shù)據(jù)共用。并且,理想汽車從2019年第一代理想ONE開(kāi)始進(jìn)行數(shù)據(jù)閉環(huán)研發(fā),有效累積訓(xùn)練數(shù)據(jù)量超過(guò)12億公里,比另外兩家頭部新勢(shì)力更早,也更多。

小鵬汽車CEO何小鵬提出的一個(gè)觀點(diǎn)是,數(shù)據(jù)多并不代表能夠做好自動(dòng)駕駛。郎咸朋同樣指出,除了數(shù)據(jù)的數(shù)量和質(zhì)量,更難的是數(shù)據(jù)的配比。

今年剛開(kāi)始投入雙系統(tǒng)項(xiàng)目研發(fā)時(shí),理想智駕團(tuán)隊(duì)發(fā)現(xiàn),測(cè)試車在等紅燈時(shí),總想變到其他車道。后來(lái)他們才知道,導(dǎo)致問(wèn)題的原因是刪除了用戶在紅燈前長(zhǎng)時(shí)間等待的數(shù)據(jù)。這一原本被忽視的數(shù)據(jù),卻是讓模型學(xué)會(huì)分辨等紅燈和堵車兩種不同等待場(chǎng)景的關(guān)鍵信息。

事實(shí)上,能夠快速發(fā)現(xiàn)并解決這一問(wèn)題,還在于理想汽車在云端建立了數(shù)據(jù)挖掘模型、場(chǎng)景理解模型等多個(gè)小模型。這套完整的工具鏈和基礎(chǔ)能力建設(shè),是自動(dòng)駕駛里進(jìn)行數(shù)據(jù)篩選和清洗的重要一環(huán)。

郎咸朋認(rèn)為,這就好比去醫(yī)院看病,一個(gè)問(wèn)題場(chǎng)景出現(xiàn)后在內(nèi)部有個(gè)“分診臺(tái)”,自動(dòng)分析歸屬于哪個(gè)場(chǎng)景問(wèn)題,給到模型分診建議,然后再拿著分診建議找到相類似的場(chǎng)景數(shù)據(jù),補(bǔ)充到訓(xùn)練樣本里,進(jìn)行下一步迭代。

在賈鵬看來(lái),將來(lái)大部分智駕工程師是在做數(shù)據(jù)和模型測(cè)試這一頭一尾的工作,反而中間模型本身的結(jié)構(gòu)設(shè)計(jì),可能不需要過(guò)多工程師。

隨著業(yè)務(wù)模式發(fā)生改變,理想汽車調(diào)整了人力配置和組織架構(gòu)。傳統(tǒng)自動(dòng)駕駛模塊化的組織架構(gòu)體系里,從場(chǎng)景設(shè)計(jì)到研發(fā)、測(cè)試、交付和問(wèn)題修改,都需要大量人力投入,但轉(zhuǎn)為端到端后,數(shù)據(jù)搜集、樣本制作、自動(dòng)化訓(xùn)練以及自動(dòng)化迭代等領(lǐng)域,人的參與度大幅降低。

理想汽車智駕團(tuán)隊(duì)經(jīng)歷了一輪擴(kuò)張后,又裁退了不少人。郎咸朋解釋說(shuō):“當(dāng)時(shí)我們要擴(kuò)張智駕團(tuán)隊(duì),是從流程看,全國(guó)各地都要鋪得很大,需要更多研發(fā)工程師以及測(cè)試人員。但是再往后走,即使我可以投資源招到這些人,但是招到之后我依然解決不了往后走到更高能力的問(wèn)題。”

當(dāng)前理想汽車智駕團(tuán)隊(duì)按照RD (Research Development) 和PD(Product Development)兩條脈絡(luò)研發(fā)。前者負(fù)責(zé)技術(shù)預(yù)研,探索下一代人工智能發(fā)展方向,后者則進(jìn)行量產(chǎn)工作,針對(duì)現(xiàn)行版本向用戶交付和維護(hù)。

在外界看來(lái),理想汽車智駕進(jìn)步速度突飛猛進(jìn),但從去年9月開(kāi)始,包括智駕團(tuán)隊(duì)在內(nèi)的工程師每周都有人工智能周例會(huì),固定和李想分享關(guān)于自動(dòng)駕駛、智能空間等人工智能相關(guān)話題。關(guān)于雙系統(tǒng)的討論,就是這樣 “慢慢聊出來(lái)的”。

理想汽車的快速進(jìn)步讓外界懷疑,關(guān)于智能駕駛的故事劇本里,不存在領(lǐng)先者恒定的高枕無(wú)憂。但郎咸朋指出,后來(lái)者參與游戲的難度實(shí)際上正變得越來(lái)越高。自動(dòng)駕駛比拼的不僅是技術(shù),更是資金,是企業(yè)的盈利能力。

一個(gè)最直觀的數(shù)據(jù)是,理想汽車目前僅是在算力的租卡投入上,一年的開(kāi)銷要達(dá)到10億元人民幣,而未來(lái)進(jìn)入到更高級(jí)別自動(dòng)駕駛研發(fā),一年的訓(xùn)練算力花銷將高達(dá)10億美金。據(jù)悉,理想汽車和小鵬汽車智駕云端最新算力儲(chǔ)備分別是4.5EFLOPS和2.51EFLOPS。

過(guò)去國(guó)內(nèi)新勢(shì)力都是摸索特斯拉的技術(shù)演進(jìn)方向,步步跟隨。但在特斯拉不再對(duì)外披露技術(shù)方案,理想汽車提供了破除端到端迷霧的一套全新方法論。上述華為研發(fā)人員向界面新聞表示, 這將有利于中國(guó)智駕不再沿著特斯拉的路徑,亦步亦趨的模仿。

但也有不少智駕工程師懷疑雙系統(tǒng)模式。在他們看來(lái),通過(guò)數(shù)據(jù)和算力的不斷提升,可以解決解決極端場(chǎng)景或者未知問(wèn)題,不需要繞彎路利用VLM模型來(lái)輔助,并且VLM模型在實(shí)踐中能夠起到多大的作用也存疑。

端到端是不是走向更高級(jí)別自動(dòng)駕駛的的技術(shù)終解,郎咸朋以及投身于國(guó)內(nèi)智駕熱潮中的先行者,可能都沒(méi)有辦法給出回答。

而對(duì)于真正購(gòu)車的用戶來(lái)說(shuō),采用何種自動(dòng)駕駛技術(shù)從來(lái)不是關(guān)注的重點(diǎn),安全、可靠、好用和穩(wěn)定等實(shí)際體驗(yàn)指標(biāo)才是他們?cè)u(píng)判優(yōu)劣的恒定標(biāo)準(zhǔn)。

界面新聞節(jié)選了與郎咸朋和賈鵬的對(duì)話內(nèi)容,在不影響原意情況下有所編輯:

站在了無(wú)人區(qū)的邊緣

Q:目前理想這套端到端+VLM的智駕架構(gòu),是基于什么想法設(shè)計(jì)的,未來(lái)發(fā)展如何

郎咸朋:去年戰(zhàn)略會(huì)時(shí)期,我們參考了包括特斯拉FSD在內(nèi)的智駕方案,發(fā)現(xiàn)想要實(shí)現(xiàn)自動(dòng)駕駛的目標(biāo),存在很大的挑戰(zhàn)。不管是端到端,還是傳統(tǒng)的感知決策模型,他的做法都是給大量數(shù)據(jù),根據(jù)已知的數(shù)據(jù),訓(xùn)練或者人工設(shè)計(jì)規(guī)則去滿足這些場(chǎng)景條件,這樣潛在問(wèn)題是,如果沒(méi)見(jiàn)過(guò)的場(chǎng)景,系統(tǒng)就不能很好的工作。

基于讓系統(tǒng)能正確地處理復(fù)雜或者未知的場(chǎng)景,我們探索怎么樣能讓車輛,有像人一樣的思考和決策或者判斷推理的能力。我們采用了跟人類大腦的思考和認(rèn)知方式比較類似的雙系統(tǒng)架構(gòu)。系統(tǒng)1我們用的是端到端模型,系統(tǒng)2用了VLM模型。將來(lái)有沒(méi)有其他的實(shí)現(xiàn)方式,我們也在迭代當(dāng)中,但是現(xiàn)在來(lái)看,這套框架和實(shí)驗(yàn)方式是比較適合后面做自動(dòng)駕駛的。

賈鵬:我們?cè)囻{特斯拉FSD V12.3版本時(shí),發(fā)現(xiàn)它在東西海岸表現(xiàn)差異非常大,這促進(jìn)我們思考,在國(guó)內(nèi)做自動(dòng)駕駛,車端芯片算力有限的情況下,單獨(dú)一個(gè)模型不是那么有效。我們當(dāng)時(shí)想法是在端到端的基礎(chǔ)上再加一個(gè)真正有泛化能力,有邏輯思考能力的一套系統(tǒng),自然而然就想到了VLM,雖然它不直接控車,但是會(huì)提供決策。

往后發(fā)展,隨著算力提升,模型規(guī)模變大,系統(tǒng)1和系統(tǒng)2能夠做到比較緊耦合。也可以借鑒現(xiàn)在多模態(tài)模型的大模型發(fā)展趨勢(shì),統(tǒng)一語(yǔ)音,視覺(jué)和激光雷達(dá)。這套范式可以支撐我們做到L4,可能是我們實(shí)現(xiàn)真正人工智能的終極答案。再往后,可能就真的到了無(wú)人區(qū),實(shí)現(xiàn)自動(dòng)駕駛真的大規(guī)模量產(chǎn),但目前還沒(méi)有看到哪一家跑出來(lái)。

Q:端到端和VLM這兩個(gè)系統(tǒng)是怎么協(xié)作的?

賈鵬:這倆系統(tǒng)一直都在實(shí)時(shí)運(yùn)行。一塊跑端到端,因?yàn)槟P托∫恍?,幀率比較高,比如跑個(gè)十幾赫茲。另外VLM模型規(guī)模參數(shù)量就大的多,是22億參數(shù),目前能跑到大概3.4赫茲3至4赫茲。VLM一直都在,只不過(guò)它是把決策結(jié)果和參考的軌跡扔給系統(tǒng)1,端到端模型推理后,決定是否用這個(gè)信息。

Q:現(xiàn)在VLM是必須的嗎,在這里面的必要性的程度大概是有多少?

郎咸朋:我們?cè)贚3起主要的支撐作用還是端到端,它是代表這個(gè)人正常的行為下的駕駛能力,但到了L4一定是VLM或者大模型,這里面起到更重要的作用??赡?0%以上的時(shí)間它不起作用,但它起作用這些內(nèi)容,是決定這個(gè)系統(tǒng)到底是L3還是L4的一個(gè)關(guān)鍵點(diǎn),是能真正的能去應(yīng)對(duì)這種未知的場(chǎng)景。

Q:怎么測(cè)試和驗(yàn)證端到端模型,形成固定向用戶推送的周期?

郎咸朋:端到端時(shí)代一個(gè)很大的挑戰(zhàn)是,它對(duì)于能力的評(píng)價(jià)和測(cè)試是不確定性的。除了系統(tǒng)1和系統(tǒng)2,我們用端到端和VLM來(lái)落地之外,還有一個(gè)試驗(yàn)?zāi)P徒邢到y(tǒng)3。這個(gè)試驗(yàn)?zāi)P蛯?shí)際上是一個(gè)考試系統(tǒng),是用試驗(yàn)?zāi)P偷哪芰χ亟ɑ蛘呱煽碱}。

這個(gè)考題我們有自己的真題庫(kù),人在路上駕駛的正確行為。它的設(shè)計(jì)是根據(jù)用戶,產(chǎn)品和整車的主觀評(píng)價(jià)團(tuán)隊(duì),跟我們內(nèi)部的一些老司機(jī)共同制定的老司機(jī)標(biāo)準(zhǔn)。我們的80萬(wàn)車主里面,每個(gè)人都打了分?jǐn)?shù),90分以上的我們稱之為老司機(jī),這個(gè)比例大概是占我們所有司機(jī)的3%左右。

在正常的測(cè)試和開(kāi)車過(guò)程中,用戶的接管和退出,這些是我們的錯(cuò)題庫(kù)。我們還要生成一些模擬題。我們會(huì)對(duì)每一版模型根據(jù)它的考試分?jǐn)?shù)去決定它是否可以迭代到車上去,進(jìn)行下一步驗(yàn)證?!?/p>

賈鵬:有特別長(zhǎng)尾的問(wèn)題,這樣的數(shù)據(jù)就沒(méi)辦法去真實(shí)獲取,有一部分生成的工作。我們的世界模型不是純生成,我們覺(jué)得純生成式模型幻覺(jué)很多很多,沒(méi)辦法真的拿去用,我們是重建加生成結(jié)合在一起,生成的是符合世界規(guī)律的,也是符合物理規(guī)律的。

比規(guī)模和質(zhì)量更重要的,是數(shù)據(jù)配比

Q:在數(shù)據(jù)這一塊,打算怎么采集或者說(shuō)一些更高效的方式?

郎咸朋:我們的車L789長(zhǎng)得都挺像,但這里有巨大的本質(zhì)好處是我們的數(shù)據(jù)可以共用,所有車上攝像頭配置,包括安裝位置都大體一致。而且從2019年第一代理想one開(kāi)始,就做數(shù)據(jù)閉環(huán)研發(fā)。到了L789階段,我們有80萬(wàn)車主,積累了超過(guò)12億公里的有效訓(xùn)練數(shù)據(jù)量,是國(guó)內(nèi)最多的沒(méi)有之一。

小鵬最早是在2021年開(kāi)始做這件事情,它的車型也有很多的變化,有轎車、SUV、MPV,它形態(tài)都不太一樣。蔚來(lái)是從ET7開(kāi)始,之前都是供應(yīng)商方案,它會(huì)更晚一點(diǎn),大概在2022年左右。

Q:怎么考慮做數(shù)據(jù)的篩選和清理,現(xiàn)在大部分的精力是投入到數(shù)據(jù)這一塊的工作,大概會(huì)占什么樣的精力?

郎咸朋:我們現(xiàn)在發(fā)現(xiàn),訓(xùn)練端到端模型,跟古代煉丹沒(méi)什么區(qū)別,怎么配比讓自動(dòng)駕駛的體驗(yàn)會(huì)更好。今年比較早期做項(xiàng)目,我們發(fā)現(xiàn)模型訓(xùn)練出來(lái)等紅燈的時(shí)候,車的行為比較怪異,總是想變到旁邊的車道。后來(lái)明白我們?cè)谟?xùn)練時(shí)候,刪除了很多在紅燈之前等待的數(shù)據(jù),我們覺(jué)得等了幾十秒或者一分鐘的數(shù)據(jù)沒(méi)有用。但后來(lái)發(fā)現(xiàn)這份數(shù)據(jù)非常重要,它教會(huì)了這個(gè)模型,有的時(shí)候是需要等待的,不是一旦你慢下來(lái)就要插空,就要變道。

Q:你們現(xiàn)在發(fā)現(xiàn)紅綠燈的問(wèn)題,然后去定位紅綠燈的數(shù)據(jù)缺失,跟以前的方式,難度是差不多的嗎?

郎咸朋:我們有一套工具鏈,發(fā)現(xiàn)一個(gè)badcase,這case回來(lái)之后,內(nèi)部有一個(gè)“分診臺(tái)”系統(tǒng)。一個(gè)場(chǎng)景問(wèn)題上來(lái),會(huì)自動(dòng)分析它應(yīng)該屬于哪一類的場(chǎng)景問(wèn)題,會(huì)給一個(gè)模型的分診建議,然后再拿著分診建議去找到相類似的場(chǎng)景。其實(shí)最終還是回歸到需要補(bǔ)充或者替代什么樣的數(shù)據(jù)到我們現(xiàn)在的訓(xùn)練樣本里,然后再進(jìn)行下一步的訓(xùn)練。

賈鵬:模型主要兩個(gè)方面,一是數(shù)據(jù)的配方,類似的場(chǎng)景到底要加多少,能把問(wèn)題解決掉,這是一個(gè)know-how,不同的場(chǎng)景對(duì)數(shù)據(jù)的要求不一樣。第二點(diǎn)是模型的超參,加入新的數(shù)據(jù)后,模型參數(shù)如何調(diào)整,一般情況下有5至6版模型會(huì)同時(shí)提交訓(xùn)練,然后看哪一版解決了問(wèn)題,同時(shí)得分也高。

Q:算力現(xiàn)在到了什么規(guī)模?

賈鵬:云端算力,我覺(jué)得各家口徑不太一樣。至少云供應(yīng)商的數(shù)據(jù)我們應(yīng)該是最多的,這個(gè)跟每年的花費(fèi)有關(guān)系,一年下來(lái)小10個(gè)億,你得有利潤(rùn)。

郎咸朋:我們明年就會(huì)有一個(gè)指數(shù)上升。到了世界模型,理論上來(lái)說(shuō)想恢復(fù)物理世界上所有東西,它的量可能是沒(méi)法估計(jì)的。我們預(yù)計(jì),如果做到 L3和L4自動(dòng)駕駛,一年的訓(xùn)練算力花銷得到10億美金,將來(lái)我們拼的就是算力和數(shù)據(jù),背后拼的是錢(qián),還是盈利能力。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。