正在閱讀:

馬斯克“掀桌子”,AI大模型+自動駕駛會誕生什么?

掃一掃下載界面新聞APP

馬斯克“掀桌子”,AI大模型+自動駕駛會誕生什么?

雖然說V12的端到端確實是顛覆性的進步,但我們離真正的完全自動駕駛還有一條明確紅線。

圖片來源:界面新聞 范劍磊

文|經(jīng)緯創(chuàng)投

能用最簡單的方法,做最復(fù)雜的事,才是真正的技術(shù)壁壘。

特斯拉的全自動駕駛FSD(Full-Self Driving)V12新版本,很好詮釋了這一點。僅需8個攝像頭,無需用上激光雷達、毫米波雷達、超聲波攝像頭等等其他零部件,就實現(xiàn)了老司機一般的駕駛能力。

馬斯克甚至顛覆了自己,V12新版本比V11有極大變化,很多V11中采取的技術(shù)也被一并拋棄(即便這些技術(shù)可能是領(lǐng)先的)。一個對V12最簡單的理解是:V11之前都需要告訴FSD遇到紅燈需要停,但V12不再需要,而是依靠V12自己學(xué)習(xí),自己“悟”出來。

于是,原本由人工編寫的30萬行代碼,如今驟減到3000行,取而代之的是類似大語言模型的訓(xùn)練芯片矩陣(由上萬顆英偉達H100級芯片組成),全靠AI神經(jīng)網(wǎng)絡(luò)訓(xùn)練解決。可以說V11還是手工作坊式的生產(chǎn)方式,V12已經(jīng)開啟了“工業(yè)革命”。

今天這篇文章,我們就來分析一下FSD V12版本背后有哪些顛覆性變化?以及與其他技術(shù)路線相比,F(xiàn)SD V12這種純視覺方案,有哪些優(yōu)劣勢?Enjoy:

01 V12新版本背后,最重要的顛覆性變化是什么?

V12最大的變化,在于部署了“端到端”的AI大模型。這里面有兩大關(guān)鍵點,一個是端到端,一個是AI大模型。

“端到端”是指,一端指輸入端,一端指輸出端,輸入數(shù)據(jù)的包括攝像頭的感知數(shù)據(jù)、車身的數(shù)據(jù)等等,中間通過Transformer架構(gòu)的AI大模型推演之后,最終直接輸出到電門、剎車、方向盤。

而通過Transformer架構(gòu)的AI大模型,是在2022年底,特斯拉Autopilot部門的一位工程師向馬斯克提出的建議,要借鑒ChatGPT,讓神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)人類駕駛員的訓(xùn)練素材,來實現(xiàn)路徑規(guī)劃。

馬斯克聽后大喜,拍板就這么干。由此開始,F(xiàn)SD的規(guī)劃部分,就直接放棄了原來普遍采用的Rule-base(通過人為定義的規(guī)則)方案,全面轉(zhuǎn)向神經(jīng)網(wǎng)絡(luò)。

在這里我們簡短解釋一下什么是Rule-base方案:Rule-base就是人為規(guī)定的規(guī)則式驅(qū)動。原來自動駕駛分為幾個步驟,分別是感知、規(guī)劃、控制,先有攝像頭、激光雷達、毫米波雷達等等傳感器獲取信息,然后基于感知結(jié)果和人為設(shè)定的規(guī)則,由自動駕駛軟件代碼來實現(xiàn)決策。

所以這里面很重要的是,一是怎么獲取到足夠多維和準確的信息,所以大家都往車上裝各種攝像頭、雷達;二是決策中,由人為設(shè)定的規(guī)則需要覆蓋所有情況。這些代碼的邏輯基本是,如果遇到某種特定情況,算法就會查詢代碼中預(yù)先編寫好的應(yīng)對方案,比如遇到紅燈需要停車、直行車道不能轉(zhuǎn)彎等等。

但是日常出現(xiàn)的駕駛情況太多了,并且還會有不常見的邊角情況(corner case)出現(xiàn),它們往往非常危險,因為在算法庫里,可能沒有編好這種情況下的應(yīng)對方案。此外,在100種不同的駕駛場景中,你可能需要100種不同的踩剎車和加速的方法,才能達到平滑的駕駛效果,否則就很容易暈車。顯然,要想讓系統(tǒng)在所有情況下都像人類駕駛那樣流暢,這是人類工程師哪怕日以繼夜地編寫代碼,也難以實現(xiàn)的。

特斯拉在以往的方法下,已經(jīng)是市場領(lǐng)先。特斯拉在感知層面,采用了一個叫做九頭蛇(HydraNet)的系統(tǒng)來進行物體識別。HydraNet首先通過八個攝像頭的圖像輸入,進入到后端的一個基干網(wǎng)絡(luò)(backbone),每一個任務(wù)都由一個專門的頭(Head)來負責(zé),比如進行物體檢測、紅綠燈識別、車道預(yù)測等等,特斯拉一共設(shè)計了50個Head,對各種任務(wù)的分類很細。

而在規(guī)劃部分,特斯拉采用的是類似谷歌AlphaGo下圍棋的方法(蒙特卡洛樹搜索,加神經(jīng)網(wǎng)絡(luò)輔助),快速窮盡所有可能性,并計算出其中勝率最高的一條路徑。圍棋要遵守棋規(guī),F(xiàn)SD要遵守交通規(guī)則,這其中就是大量人為定義的規(guī)則。簡單來說,就是根據(jù)預(yù)設(shè)規(guī)則,在所有可能的駕駛軌跡中,計算出一個不會和任何物體碰撞并且不違反交規(guī)的最優(yōu)解。

V12出來掀了桌子,把之前很多技術(shù)都丟進了垃圾桶。V12不再需要通過代碼寫好“遇到紅燈需要停下”,而是通過讓AI觀看大量人類駕駛員的駕駛視頻,讓AI自己找出成千上萬條規(guī)律,遇到紅綠燈、減速、剎車這是AI自己學(xué)會的,是自己“悟”出來的。正是因為這樣的一個轉(zhuǎn)變,原來負責(zé)這一塊的30萬行C++代碼,如今變成了3000行。這也是為什么V12版本中,F(xiàn)SD的駕駛表現(xiàn)非常擬人化。

從更底層的角度來說,V12“看”的是像素點。V12不需要先識別畫面中的東西是什么、再到?jīng)Q策部門根據(jù)這個感知結(jié)果做判斷,而看的是畫面中的最小單位像素點,V12把畫面上像素點的位置、組成的形狀以及運行的規(guī)律,直接輸入到神經(jīng)網(wǎng)絡(luò)中,通過數(shù)以億計的真實視頻來學(xué)習(xí)經(jīng)驗,把現(xiàn)在輸入的像素點,與之前學(xué)習(xí)時遇到的像素位置進行對比,而這些學(xué)習(xí)的視頻,就是真實人類司機的駕駛反應(yīng)。然后直接輸出一個結(jié)果,就是執(zhí)行所需要的剎車、電門、方向盤。

以往視覺方案中的劣勢,比如異形障礙物識別失敗的問題,現(xiàn)在幾乎不存在了,只要能拍到這個物體,讓它出現(xiàn)在畫面里,它就會成為畫面中的一堆像素點,V12只需要這些像素點就夠了,所以V12所代表的AI方案被稱為“純視覺的最終解決方案”。

當然,那如果訓(xùn)練所用的視頻數(shù)據(jù)本身是魯莽駕駛,那是不是訓(xùn)練出來的AI駕駛員就會非常危險?答案確實是,特斯拉的解決辦法是開辟汽車保險業(yè)務(wù)。

比如在美國,特斯拉通過北美的保險業(yè)務(wù),延伸出了一套駕駛員行為評分系統(tǒng),它會對人類駕駛員的駕駛行為嚴格打分。特斯拉用于訓(xùn)練FSD的數(shù)據(jù),全部來自于90分以上的駕駛員,可以說是對數(shù)據(jù)的要求極為苛刻。

當然,V12跟ChatGPT這樣的大模型很像,都是一個“黑盒模型”,它們需要通過足夠多的數(shù)據(jù)訓(xùn)練,才能涌現(xiàn)出一些驚人的能力,并且設(shè)計它的工程師也不知道,為什么會涌現(xiàn)出這些能力。

這也是為何FSD需要超過60億英里的驗證里程,只有推理得夠多,才能知道如何對模型進行微調(diào)和優(yōu)化,在自動駕駛領(lǐng)域重現(xiàn)大語言模型中Scaling law的情況,實現(xiàn)指數(shù)級的能力增長。如馬斯克所言:當你有100萬個視頻片段,勉強夠用;200萬個,稍好一些;300 萬個,就會感覺哇塞;1000萬個,將變得難以置信。

那么,特斯拉的追趕者能追上嗎?這背后需要的是極其龐大的算力。“現(xiàn)在來看,自動駕駛超越人類駕駛就只是時間上的問題?!瘪R斯克說。在今年一季度,特斯拉把總算力又提高了,等同于3.5萬塊英偉達H100的算力,到年底還要翻倍達到8.5萬塊算力規(guī)模,這令特斯拉成為美國擁有第一流算力規(guī)模的科技公司,與微軟、Meta相當。

02 純視覺方案,有哪些優(yōu)劣勢?

目前自動駕駛領(lǐng)域,主要分為純視覺和激光雷達兩個方案。如今純視覺通過結(jié)合AI,實現(xiàn)了端到端,有了突飛猛進的變化。在激光雷達方案里,還是依靠Rule-base的方法,通過激光雷達、毫米波雷達、超聲波攝像頭這些復(fù)雜的組合方案,現(xiàn)階段其實也有不錯的表現(xiàn)。那么純視覺+AI和Rule-base+激光雷達相比,有何優(yōu)劣?

一言以蔽之,純視覺(+AI大模型)的劣勢是起步慢,但成長性更強。原來的Rule-base在初期能力增長快,但后期空間嚴重不足,兩者存在一個交點。

Rule-base也可以通過不斷修改來進行迭代。一旦發(fā)現(xiàn)問題之后,就可以找到對應(yīng)的代碼,一般都是if-else語句,if在什么情況下發(fā)生,否則else怎么樣,這是規(guī)則式的核心邏輯。這時候只要修改某個if-else語句的參數(shù)量,或者解出錯誤的行數(shù),把問題修復(fù)就解決了。這里面不需要喂大量的數(shù)據(jù),直接把修復(fù)代碼放在車上重新部署即可。

在到達兩者的交點之前,意味著Rule-base算法優(yōu)于大模型。這是大模型的特點導(dǎo)致的,當數(shù)據(jù)量不夠的時候,相比于規(guī)則式算法穩(wěn)定性不夠。這也是Rule-base的核心優(yōu)勢,它的解釋性比較強,規(guī)則非常明確,當把代碼部署到車上之后,會具備最基本的能力表現(xiàn),能讓車實現(xiàn)基本的ACC、LCC輔助駕駛功能。但大模型不行,在沒有經(jīng)過足夠的數(shù)據(jù)訓(xùn)練之前,產(chǎn)品是非常弱的。

但在兩者的交點之后,純視覺的端到端模式,則更像是面向未來的終極方案。由于AI大模型具有通識能力,它能夠理解以前沒有看到過的東西。

比如說,某一次從前面的車上掉下來了一個塑料袋,另一次則掉出來了一個啤酒箱,但是在我們的訓(xùn)練數(shù)據(jù)集里,從來沒有出現(xiàn)過這兩種情況。作為人類司機,我們知道塑料袋是軟的,不需要規(guī)避,但啤酒箱是硬的,需要規(guī)避。如果沒有大模型,自動駕駛系統(tǒng)就相當于一直生活在車上,它只能解決曾經(jīng)在這個車上看到的場景。但是真正的人類駕駛員肯定不只生活在車上,他還生活在整個世界里,而大模型有通識能力,它能識別出塑料袋和啤酒箱的區(qū)別,它更接近人類,能應(yīng)對各種場景,更何況它還有8顆攝像頭。

此外,從硬件角度來說,純視覺的端到端模式完勝,因為只需要8顆攝像頭,未來最多是不斷升級像素,這能極大降低整車成本。而且基本無需擔心硬件迭代,所帶來的技術(shù)斷層問題。

如果展望未來,從用戶體驗角度來說,大模型更能和座艙聯(lián)動。未來的自動駕駛AI,可能就會和真正有一位司機在開車一樣,你可以跟它聊天:比如“剛剛路過的湖叫什么?”,或者給它下達命令,比如“現(xiàn)在靠邊停車”或者“我們不太舒服你開穩(wěn)一點”等等,這是邁向L4級自動駕駛的重要一步,也是提升自動駕駛體驗很關(guān)鍵的一點。

當然,雖然說V12的端到端確實是顛覆性的進步,但我們離真正的完全自動駕駛還有一條明確紅線,就是——責(zé)任在人類駕駛員還是在汽車系統(tǒng)身上,無論從技術(shù)、安全還是產(chǎn)品責(zé)任的角度來看,這都是一條最重要的分界線。目前,雖然有這么多進步,但我們還處于L2以下,我們可能需要足夠多的安全數(shù)據(jù),來證明自動駕駛的事故率小于人類,才有可能真正跨越這條紅線。

References:

1.Morgan Stanley:Tesla Inc Tesla and Nvidia The Journey to AI Supremacy

2.華泰證券:特斯拉(TSLA.US)如何理解特斯拉的當下與未來?

3.中信證券:特斯拉FSD,2023突圍之年

4.西南證券:從特斯拉FSD看人工智能

5.WSJ:Elon Musk Pushes to Increase Use of ‘Full Self-Driving’ Software as Tesla Sales Cool

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

馬斯克“掀桌子”,AI大模型+自動駕駛會誕生什么?

雖然說V12的端到端確實是顛覆性的進步,但我們離真正的完全自動駕駛還有一條明確紅線。

圖片來源:界面新聞 范劍磊

文|經(jīng)緯創(chuàng)投

能用最簡單的方法,做最復(fù)雜的事,才是真正的技術(shù)壁壘。

特斯拉的全自動駕駛FSD(Full-Self Driving)V12新版本,很好詮釋了這一點。僅需8個攝像頭,無需用上激光雷達、毫米波雷達、超聲波攝像頭等等其他零部件,就實現(xiàn)了老司機一般的駕駛能力。

馬斯克甚至顛覆了自己,V12新版本比V11有極大變化,很多V11中采取的技術(shù)也被一并拋棄(即便這些技術(shù)可能是領(lǐng)先的)。一個對V12最簡單的理解是:V11之前都需要告訴FSD遇到紅燈需要停,但V12不再需要,而是依靠V12自己學(xué)習(xí),自己“悟”出來。

于是,原本由人工編寫的30萬行代碼,如今驟減到3000行,取而代之的是類似大語言模型的訓(xùn)練芯片矩陣(由上萬顆英偉達H100級芯片組成),全靠AI神經(jīng)網(wǎng)絡(luò)訓(xùn)練解決。可以說V11還是手工作坊式的生產(chǎn)方式,V12已經(jīng)開啟了“工業(yè)革命”。

今天這篇文章,我們就來分析一下FSD V12版本背后有哪些顛覆性變化?以及與其他技術(shù)路線相比,F(xiàn)SD V12這種純視覺方案,有哪些優(yōu)劣勢?Enjoy:

01 V12新版本背后,最重要的顛覆性變化是什么?

V12最大的變化,在于部署了“端到端”的AI大模型。這里面有兩大關(guān)鍵點,一個是端到端,一個是AI大模型。

“端到端”是指,一端指輸入端,一端指輸出端,輸入數(shù)據(jù)的包括攝像頭的感知數(shù)據(jù)、車身的數(shù)據(jù)等等,中間通過Transformer架構(gòu)的AI大模型推演之后,最終直接輸出到電門、剎車、方向盤。

而通過Transformer架構(gòu)的AI大模型,是在2022年底,特斯拉Autopilot部門的一位工程師向馬斯克提出的建議,要借鑒ChatGPT,讓神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)人類駕駛員的訓(xùn)練素材,來實現(xiàn)路徑規(guī)劃。

馬斯克聽后大喜,拍板就這么干。由此開始,F(xiàn)SD的規(guī)劃部分,就直接放棄了原來普遍采用的Rule-base(通過人為定義的規(guī)則)方案,全面轉(zhuǎn)向神經(jīng)網(wǎng)絡(luò)。

在這里我們簡短解釋一下什么是Rule-base方案:Rule-base就是人為規(guī)定的規(guī)則式驅(qū)動。原來自動駕駛分為幾個步驟,分別是感知、規(guī)劃、控制,先有攝像頭、激光雷達、毫米波雷達等等傳感器獲取信息,然后基于感知結(jié)果和人為設(shè)定的規(guī)則,由自動駕駛軟件代碼來實現(xiàn)決策。

所以這里面很重要的是,一是怎么獲取到足夠多維和準確的信息,所以大家都往車上裝各種攝像頭、雷達;二是決策中,由人為設(shè)定的規(guī)則需要覆蓋所有情況。這些代碼的邏輯基本是,如果遇到某種特定情況,算法就會查詢代碼中預(yù)先編寫好的應(yīng)對方案,比如遇到紅燈需要停車、直行車道不能轉(zhuǎn)彎等等。

但是日常出現(xiàn)的駕駛情況太多了,并且還會有不常見的邊角情況(corner case)出現(xiàn),它們往往非常危險,因為在算法庫里,可能沒有編好這種情況下的應(yīng)對方案。此外,在100種不同的駕駛場景中,你可能需要100種不同的踩剎車和加速的方法,才能達到平滑的駕駛效果,否則就很容易暈車。顯然,要想讓系統(tǒng)在所有情況下都像人類駕駛那樣流暢,這是人類工程師哪怕日以繼夜地編寫代碼,也難以實現(xiàn)的。

特斯拉在以往的方法下,已經(jīng)是市場領(lǐng)先。特斯拉在感知層面,采用了一個叫做九頭蛇(HydraNet)的系統(tǒng)來進行物體識別。HydraNet首先通過八個攝像頭的圖像輸入,進入到后端的一個基干網(wǎng)絡(luò)(backbone),每一個任務(wù)都由一個專門的頭(Head)來負責(zé),比如進行物體檢測、紅綠燈識別、車道預(yù)測等等,特斯拉一共設(shè)計了50個Head,對各種任務(wù)的分類很細。

而在規(guī)劃部分,特斯拉采用的是類似谷歌AlphaGo下圍棋的方法(蒙特卡洛樹搜索,加神經(jīng)網(wǎng)絡(luò)輔助),快速窮盡所有可能性,并計算出其中勝率最高的一條路徑。圍棋要遵守棋規(guī),F(xiàn)SD要遵守交通規(guī)則,這其中就是大量人為定義的規(guī)則。簡單來說,就是根據(jù)預(yù)設(shè)規(guī)則,在所有可能的駕駛軌跡中,計算出一個不會和任何物體碰撞并且不違反交規(guī)的最優(yōu)解。

V12出來掀了桌子,把之前很多技術(shù)都丟進了垃圾桶。V12不再需要通過代碼寫好“遇到紅燈需要停下”,而是通過讓AI觀看大量人類駕駛員的駕駛視頻,讓AI自己找出成千上萬條規(guī)律,遇到紅綠燈、減速、剎車這是AI自己學(xué)會的,是自己“悟”出來的。正是因為這樣的一個轉(zhuǎn)變,原來負責(zé)這一塊的30萬行C++代碼,如今變成了3000行。這也是為什么V12版本中,F(xiàn)SD的駕駛表現(xiàn)非常擬人化。

從更底層的角度來說,V12“看”的是像素點。V12不需要先識別畫面中的東西是什么、再到?jīng)Q策部門根據(jù)這個感知結(jié)果做判斷,而看的是畫面中的最小單位像素點,V12把畫面上像素點的位置、組成的形狀以及運行的規(guī)律,直接輸入到神經(jīng)網(wǎng)絡(luò)中,通過數(shù)以億計的真實視頻來學(xué)習(xí)經(jīng)驗,把現(xiàn)在輸入的像素點,與之前學(xué)習(xí)時遇到的像素位置進行對比,而這些學(xué)習(xí)的視頻,就是真實人類司機的駕駛反應(yīng)。然后直接輸出一個結(jié)果,就是執(zhí)行所需要的剎車、電門、方向盤。

以往視覺方案中的劣勢,比如異形障礙物識別失敗的問題,現(xiàn)在幾乎不存在了,只要能拍到這個物體,讓它出現(xiàn)在畫面里,它就會成為畫面中的一堆像素點,V12只需要這些像素點就夠了,所以V12所代表的AI方案被稱為“純視覺的最終解決方案”。

當然,那如果訓(xùn)練所用的視頻數(shù)據(jù)本身是魯莽駕駛,那是不是訓(xùn)練出來的AI駕駛員就會非常危險?答案確實是,特斯拉的解決辦法是開辟汽車保險業(yè)務(wù)。

比如在美國,特斯拉通過北美的保險業(yè)務(wù),延伸出了一套駕駛員行為評分系統(tǒng),它會對人類駕駛員的駕駛行為嚴格打分。特斯拉用于訓(xùn)練FSD的數(shù)據(jù),全部來自于90分以上的駕駛員,可以說是對數(shù)據(jù)的要求極為苛刻。

當然,V12跟ChatGPT這樣的大模型很像,都是一個“黑盒模型”,它們需要通過足夠多的數(shù)據(jù)訓(xùn)練,才能涌現(xiàn)出一些驚人的能力,并且設(shè)計它的工程師也不知道,為什么會涌現(xiàn)出這些能力。

這也是為何FSD需要超過60億英里的驗證里程,只有推理得夠多,才能知道如何對模型進行微調(diào)和優(yōu)化,在自動駕駛領(lǐng)域重現(xiàn)大語言模型中Scaling law的情況,實現(xiàn)指數(shù)級的能力增長。如馬斯克所言:當你有100萬個視頻片段,勉強夠用;200萬個,稍好一些;300 萬個,就會感覺哇塞;1000萬個,將變得難以置信。

那么,特斯拉的追趕者能追上嗎?這背后需要的是極其龐大的算力。“現(xiàn)在來看,自動駕駛超越人類駕駛就只是時間上的問題?!瘪R斯克說。在今年一季度,特斯拉把總算力又提高了,等同于3.5萬塊英偉達H100的算力,到年底還要翻倍達到8.5萬塊算力規(guī)模,這令特斯拉成為美國擁有第一流算力規(guī)模的科技公司,與微軟、Meta相當。

02 純視覺方案,有哪些優(yōu)劣勢?

目前自動駕駛領(lǐng)域,主要分為純視覺和激光雷達兩個方案。如今純視覺通過結(jié)合AI,實現(xiàn)了端到端,有了突飛猛進的變化。在激光雷達方案里,還是依靠Rule-base的方法,通過激光雷達、毫米波雷達、超聲波攝像頭這些復(fù)雜的組合方案,現(xiàn)階段其實也有不錯的表現(xiàn)。那么純視覺+AI和Rule-base+激光雷達相比,有何優(yōu)劣?

一言以蔽之,純視覺(+AI大模型)的劣勢是起步慢,但成長性更強。原來的Rule-base在初期能力增長快,但后期空間嚴重不足,兩者存在一個交點。

Rule-base也可以通過不斷修改來進行迭代。一旦發(fā)現(xiàn)問題之后,就可以找到對應(yīng)的代碼,一般都是if-else語句,if在什么情況下發(fā)生,否則else怎么樣,這是規(guī)則式的核心邏輯。這時候只要修改某個if-else語句的參數(shù)量,或者解出錯誤的行數(shù),把問題修復(fù)就解決了。這里面不需要喂大量的數(shù)據(jù),直接把修復(fù)代碼放在車上重新部署即可。

在到達兩者的交點之前,意味著Rule-base算法優(yōu)于大模型。這是大模型的特點導(dǎo)致的,當數(shù)據(jù)量不夠的時候,相比于規(guī)則式算法穩(wěn)定性不夠。這也是Rule-base的核心優(yōu)勢,它的解釋性比較強,規(guī)則非常明確,當把代碼部署到車上之后,會具備最基本的能力表現(xiàn),能讓車實現(xiàn)基本的ACC、LCC輔助駕駛功能。但大模型不行,在沒有經(jīng)過足夠的數(shù)據(jù)訓(xùn)練之前,產(chǎn)品是非常弱的。

但在兩者的交點之后,純視覺的端到端模式,則更像是面向未來的終極方案。由于AI大模型具有通識能力,它能夠理解以前沒有看到過的東西。

比如說,某一次從前面的車上掉下來了一個塑料袋,另一次則掉出來了一個啤酒箱,但是在我們的訓(xùn)練數(shù)據(jù)集里,從來沒有出現(xiàn)過這兩種情況。作為人類司機,我們知道塑料袋是軟的,不需要規(guī)避,但啤酒箱是硬的,需要規(guī)避。如果沒有大模型,自動駕駛系統(tǒng)就相當于一直生活在車上,它只能解決曾經(jīng)在這個車上看到的場景。但是真正的人類駕駛員肯定不只生活在車上,他還生活在整個世界里,而大模型有通識能力,它能識別出塑料袋和啤酒箱的區(qū)別,它更接近人類,能應(yīng)對各種場景,更何況它還有8顆攝像頭。

此外,從硬件角度來說,純視覺的端到端模式完勝,因為只需要8顆攝像頭,未來最多是不斷升級像素,這能極大降低整車成本。而且基本無需擔心硬件迭代,所帶來的技術(shù)斷層問題。

如果展望未來,從用戶體驗角度來說,大模型更能和座艙聯(lián)動。未來的自動駕駛AI,可能就會和真正有一位司機在開車一樣,你可以跟它聊天:比如“剛剛路過的湖叫什么?”,或者給它下達命令,比如“現(xiàn)在靠邊停車”或者“我們不太舒服你開穩(wěn)一點”等等,這是邁向L4級自動駕駛的重要一步,也是提升自動駕駛體驗很關(guān)鍵的一點。

當然,雖然說V12的端到端確實是顛覆性的進步,但我們離真正的完全自動駕駛還有一條明確紅線,就是——責(zé)任在人類駕駛員還是在汽車系統(tǒng)身上,無論從技術(shù)、安全還是產(chǎn)品責(zé)任的角度來看,這都是一條最重要的分界線。目前,雖然有這么多進步,但我們還處于L2以下,我們可能需要足夠多的安全數(shù)據(jù),來證明自動駕駛的事故率小于人類,才有可能真正跨越這條紅線。

References:

1.Morgan Stanley:Tesla Inc Tesla and Nvidia The Journey to AI Supremacy

2.華泰證券:特斯拉(TSLA.US)如何理解特斯拉的當下與未來?

3.中信證券:特斯拉FSD,2023突圍之年

4.西南證券:從特斯拉FSD看人工智能

5.WSJ:Elon Musk Pushes to Increase Use of ‘Full Self-Driving’ Software as Tesla Sales Cool

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。