日本不卡一区二区三区视频,久久综合精品国产一区无码

文|經(jīng)緯創(chuàng)投

能用最簡單的方法，做最復(fù)雜的事，才是真正的技術(shù)壁壘。

特斯拉的全自動駕駛FSD（Full-Self Driving）V12新版本，很好詮釋了這一點。僅需8個攝像頭，無需用上激光雷達、毫米波雷達、超聲波攝像頭等等其他零部件，就實現(xiàn)了老司機一般的駕駛能力。

馬斯克甚至顛覆了自己，V12新版本比V11有極大變化，很多V11中采取的技術(shù)也被一并拋棄（即便這些技術(shù)可能是領(lǐng)先的）。一個對V12最簡單的理解是：V11之前都需要告訴FSD遇到紅燈需要停，但V12不再需要，而是依靠V12自己學(xué)習(xí)，自己“悟”出來。

于是，原本由人工編寫的30萬行代碼，如今驟減到3000行，取而代之的是類似大語言模型的訓(xùn)練芯片矩陣（由上萬顆英偉達H100級芯片組成），全靠AI神經(jīng)網(wǎng)絡(luò)訓(xùn)練解決。可以說V11還是手工作坊式的生產(chǎn)方式，V12已經(jīng)開啟了“工業(yè)革命”。

今天這篇文章，我們就來分析一下FSD V12版本背后有哪些顛覆性變化？以及與其他技術(shù)路線相比，F(xiàn)SD V12這種純視覺方案，有哪些優(yōu)劣勢？Enjoy：

01 V12新版本背后，最重要的顛覆性變化是什么？

V12最大的變化，在于部署了“端到端”的AI大模型。這里面有兩大關(guān)鍵點，一個是端到端，一個是AI大模型。

“端到端”是指，一端指輸入端，一端指輸出端，輸入數(shù)據(jù)的包括攝像頭的感知數(shù)據(jù)、車身的數(shù)據(jù)等等，中間通過Transformer架構(gòu)的AI大模型推演之后，最終直接輸出到電門、剎車、方向盤。

而通過Transformer架構(gòu)的AI大模型，是在2022年底，特斯拉Autopilot部門的一位工程師向馬斯克提出的建議，要借鑒ChatGPT，讓神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)人類駕駛員的訓(xùn)練素材，來實現(xiàn)路徑規(guī)劃。

馬斯克聽后大喜，拍板就這么干。由此開始，F(xiàn)SD的規(guī)劃部分，就直接放棄了原來普遍采用的Rule-base（通過人為定義的規(guī)則）方案，全面轉(zhuǎn)向神經(jīng)網(wǎng)絡(luò)。

在這里我們簡短解釋一下什么是Rule-base方案：Rule-base就是人為規(guī)定的規(guī)則式驅(qū)動。原來自動駕駛分為幾個步驟，分別是感知、規(guī)劃、控制，先有攝像頭、激光雷達、毫米波雷達等等傳感器獲取信息，然后基于感知結(jié)果和人為設(shè)定的規(guī)則，由自動駕駛軟件代碼來實現(xiàn)決策。

所以這里面很重要的是，一是怎么獲取到足夠多維和準確的信息，所以大家都往車上裝各種攝像頭、雷達；二是決策中，由人為設(shè)定的規(guī)則需要覆蓋所有情況。這些代碼的邏輯基本是，如果遇到某種特定情況，算法就會查詢代碼中預(yù)先編寫好的應(yīng)對方案，比如遇到紅燈需要停車、直行車道不能轉(zhuǎn)彎等等。

但是日常出現(xiàn)的駕駛情況太多了，并且還會有不常見的邊角情況（corner case）出現(xiàn)，它們往往非常危險，因為在算法庫里，可能沒有編好這種情況下的應(yīng)對方案。此外，在100種不同的駕駛場景中，你可能需要100種不同的踩剎車和加速的方法，才能達到平滑的駕駛效果，否則就很容易暈車。顯然，要想讓系統(tǒng)在所有情況下都像人類駕駛那樣流暢，這是人類工程師哪怕日以繼夜地編寫代碼，也難以實現(xiàn)的。

特斯拉在以往的方法下，已經(jīng)是市場領(lǐng)先。特斯拉在感知層面，采用了一個叫做九頭蛇（HydraNet）的系統(tǒng)來進行物體識別。HydraNet首先通過八個攝像頭的圖像輸入，進入到后端的一個基干網(wǎng)絡(luò)（backbone），每一個任務(wù)都由一個專門的頭（Head）來負責(zé)，比如進行物體檢測、紅綠燈識別、車道預(yù)測等等，特斯拉一共設(shè)計了50個Head，對各種任務(wù)的分類很細。

而在規(guī)劃部分，特斯拉采用的是類似谷歌AlphaGo下圍棋的方法（蒙特卡洛樹搜索，加神經(jīng)網(wǎng)絡(luò)輔助），快速窮盡所有可能性，并計算出其中勝率最高的一條路徑。圍棋要遵守棋規(guī)，F(xiàn)SD要遵守交通規(guī)則，這其中就是大量人為定義的規(guī)則。簡單來說，就是根據(jù)預(yù)設(shè)規(guī)則，在所有可能的駕駛軌跡中，計算出一個不會和任何物體碰撞并且不違反交規(guī)的最優(yōu)解。

V12出來掀了桌子，把之前很多技術(shù)都丟進了垃圾桶。V12不再需要通過代碼寫好“遇到紅燈需要停下”，而是通過讓AI觀看大量人類駕駛員的駕駛視頻，讓AI自己找出成千上萬條規(guī)律，遇到紅綠燈、減速、剎車這是AI自己學(xué)會的，是自己“悟”出來的。正是因為這樣的一個轉(zhuǎn)變，原來負責(zé)這一塊的30萬行C++代碼，如今變成了3000行。這也是為什么V12版本中，F(xiàn)SD的駕駛表現(xiàn)非常擬人化。

從更底層的角度來說，V12“看”的是像素點。V12不需要先識別畫面中的東西是什么、再到?jīng)Q策部門根據(jù)這個感知結(jié)果做判斷，而看的是畫面中的最小單位像素點，V12把畫面上像素點的位置、組成的形狀以及運行的規(guī)律，直接輸入到神經(jīng)網(wǎng)絡(luò)中，通過數(shù)以億計的真實視頻來學(xué)習(xí)經(jīng)驗，把現(xiàn)在輸入的像素點，與之前學(xué)習(xí)時遇到的像素位置進行對比，而這些學(xué)習(xí)的視頻，就是真實人類司機的駕駛反應(yīng)。然后直接輸出一個結(jié)果，就是執(zhí)行所需要的剎車、電門、方向盤。

以往視覺方案中的劣勢，比如異形障礙物識別失敗的問題，現(xiàn)在幾乎不存在了，只要能拍到這個物體，讓它出現(xiàn)在畫面里，它就會成為畫面中的一堆像素點，V12只需要這些像素點就夠了，所以V12所代表的AI方案被稱為“純視覺的最終解決方案”。

當然，那如果訓(xùn)練所用的視頻數(shù)據(jù)本身是魯莽駕駛，那是不是訓(xùn)練出來的AI駕駛員就會非常危險？答案確實是，特斯拉的解決辦法是開辟汽車保險業(yè)務(wù)。

比如在美國，特斯拉通過北美的保險業(yè)務(wù)，延伸出了一套駕駛員行為評分系統(tǒng)，它會對人類駕駛員的駕駛行為嚴格打分。特斯拉用于訓(xùn)練FSD的數(shù)據(jù)，全部來自于90分以上的駕駛員，可以說是對數(shù)據(jù)的要求極為苛刻。

當然，V12跟ChatGPT這樣的大模型很像，都是一個“黑盒模型”，它們需要通過足夠多的數(shù)據(jù)訓(xùn)練，才能涌現(xiàn)出一些驚人的能力，并且設(shè)計它的工程師也不知道，為什么會涌現(xiàn)出這些能力。

這也是為何FSD需要超過60億英里的驗證里程，只有推理得夠多，才能知道如何對模型進行微調(diào)和優(yōu)化，在自動駕駛領(lǐng)域重現(xiàn)大語言模型中Scaling law的情況，實現(xiàn)指數(shù)級的能力增長。如馬斯克所言：當你有100萬個視頻片段，勉強夠用；200萬個，稍好一些；300 萬個，就會感覺哇塞；1000萬個，將變得難以置信。

那么，特斯拉的追趕者能追上嗎？這背后需要的是極其龐大的算力。“現(xiàn)在來看，自動駕駛超越人類駕駛就只是時間上的問題?！瘪R斯克說。在今年一季度，特斯拉把總算力又提高了，等同于3.5萬塊英偉達H100的算力，到年底還要翻倍達到8.5萬塊算力規(guī)模，這令特斯拉成為美國擁有第一流算力規(guī)模的科技公司，與微軟、Meta相當。

02 純視覺方案，有哪些優(yōu)劣勢？

目前自動駕駛領(lǐng)域，主要分為純視覺和激光雷達兩個方案。如今純視覺通過結(jié)合AI，實現(xiàn)了端到端，有了突飛猛進的變化。在激光雷達方案里，還是依靠Rule-base的方法，通過激光雷達、毫米波雷達、超聲波攝像頭這些復(fù)雜的組合方案，現(xiàn)階段其實也有不錯的表現(xiàn)。那么純視覺+AI和Rule-base+激光雷達相比，有何優(yōu)劣？

一言以蔽之，純視覺（+AI大模型）的劣勢是起步慢，但成長性更強。原來的Rule-base在初期能力增長快，但后期空間嚴重不足，兩者存在一個交點。

Rule-base也可以通過不斷修改來進行迭代。一旦發(fā)現(xiàn)問題之后，就可以找到對應(yīng)的代碼，一般都是if-else語句，if在什么情況下發(fā)生，否則else怎么樣，這是規(guī)則式的核心邏輯。這時候只要修改某個if-else語句的參數(shù)量，或者解出錯誤的行數(shù)，把問題修復(fù)就解決了。這里面不需要喂大量的數(shù)據(jù)，直接把修復(fù)代碼放在車上重新部署即可。

在到達兩者的交點之前，意味著Rule-base算法優(yōu)于大模型。這是大模型的特點導(dǎo)致的，當數(shù)據(jù)量不夠的時候，相比于規(guī)則式算法穩(wěn)定性不夠。這也是Rule-base的核心優(yōu)勢，它的解釋性比較強，規(guī)則非常明確，當把代碼部署到車上之后，會具備最基本的能力表現(xiàn)，能讓車實現(xiàn)基本的ACC、LCC輔助駕駛功能。但大模型不行，在沒有經(jīng)過足夠的數(shù)據(jù)訓(xùn)練之前，產(chǎn)品是非常弱的。

但在兩者的交點之后，純視覺的端到端模式，則更像是面向未來的終極方案。由于AI大模型具有通識能力，它能夠理解以前沒有看到過的東西。

比如說，某一次從前面的車上掉下來了一個塑料袋，另一次則掉出來了一個啤酒箱，但是在我們的訓(xùn)練數(shù)據(jù)集里，從來沒有出現(xiàn)過這兩種情況。作為人類司機，我們知道塑料袋是軟的，不需要規(guī)避，但啤酒箱是硬的，需要規(guī)避。如果沒有大模型，自動駕駛系統(tǒng)就相當于一直生活在車上，它只能解決曾經(jīng)在這個車上看到的場景。但是真正的人類駕駛員肯定不只生活在車上，他還生活在整個世界里，而大模型有通識能力，它能識別出塑料袋和啤酒箱的區(qū)別，它更接近人類，能應(yīng)對各種場景，更何況它還有8顆攝像頭。

此外，從硬件角度來說，純視覺的端到端模式完勝，因為只需要8顆攝像頭，未來最多是不斷升級像素，這能極大降低整車成本。而且基本無需擔心硬件迭代，所帶來的技術(shù)斷層問題。

如果展望未來，從用戶體驗角度來說，大模型更能和座艙聯(lián)動。未來的自動駕駛AI，可能就會和真正有一位司機在開車一樣，你可以跟它聊天：比如“剛剛路過的湖叫什么？”，或者給它下達命令，比如“現(xiàn)在靠邊停車”或者“我們不太舒服你開穩(wěn)一點”等等，這是邁向L4級自動駕駛的重要一步，也是提升自動駕駛體驗很關(guān)鍵的一點。

當然，雖然說V12的端到端確實是顛覆性的進步，但我們離真正的完全自動駕駛還有一條明確紅線，就是——責(zé)任在人類駕駛員還是在汽車系統(tǒng)身上，無論從技術(shù)、安全還是產(chǎn)品責(zé)任的角度來看，這都是一條最重要的分界線。目前，雖然有這么多進步，但我們還處于L2以下，我們可能需要足夠多的安全數(shù)據(jù)，來證明自動駕駛的事故率小于人類，才有可能真正跨越這條紅線。

References：

1.Morgan Stanley：Tesla Inc Tesla and Nvidia The Journey to AI Supremacy

2.華泰證券：特斯拉(TSLA.US)如何理解特斯拉的當下與未來？

3.中信證券：特斯拉FSD，2023突圍之年

4.西南證券：從特斯拉FSD看人工智能

5.WSJ：Elon Musk Pushes to Increase Use of ‘Full Self-Driving’ Software as Tesla Sales Cool

文|經(jīng)緯創(chuàng)投

能用最簡單的方法，做最復(fù)雜的事，才是真正的技術(shù)壁壘。

01 V12新版本背后，最重要的顛覆性變化是什么？

V12最大的變化，在于部署了“端到端”的AI大模型。這里面有兩大關(guān)鍵點，一個是端到端，一個是AI大模型。

02 純視覺方案，有哪些優(yōu)劣勢？

一言以蔽之，純視覺（+AI大模型）的劣勢是起步慢，但成長性更強。原來的Rule-base在初期能力增長快，但后期空間嚴重不足，兩者存在一個交點。

但在兩者的交點之后，純視覺的端到端模式，則更像是面向未來的終極方案。由于AI大模型具有通識能力，它能夠理解以前沒有看到過的東西。

References：

1.Morgan Stanley：Tesla Inc Tesla and Nvidia The Journey to AI Supremacy

2.華泰證券：特斯拉(TSLA.US)如何理解特斯拉的當下與未來？

3.中信證券：特斯拉FSD，2023突圍之年

4.西南證券：從特斯拉FSD看人工智能

5.WSJ：Elon Musk Pushes to Increase Use of ‘Full Self-Driving’ Software as Tesla Sales Cool

歷史搜索全部刪除

熱門搜索

馬斯克“掀桌子”，AI大模型+自動駕駛會誕生什么？

01 V12新版本背后，最重要的顛覆性變化是什么？

02 純視覺方案，有哪些優(yōu)劣勢？

評論

馬斯克“掀桌子”，AI大模型+自動駕駛會誕生什么？

01 V12新版本背后，最重要的顛覆性變化是什么？

02 純視覺方案，有哪些優(yōu)劣勢？

馬斯克“掀桌子”，AI大模型+自動駕駛會誕生什么？

01 V12新版本背后，最重要的顛覆性變化是什么？

02 純視覺方案，有哪些優(yōu)劣勢？

評論

馬斯克“掀桌子”，AI大模型+自動駕駛會誕生什么？

01 V12新版本背后，最重要的顛覆性變化是什么？

02 純視覺方案，有哪些優(yōu)劣勢？

馬斯克“掀桌子”，AI大模型+自動駕駛會誕生什么？

01 V12新版本背后，最重要的顛覆性變化是什么？

02 純視覺方案，有哪些優(yōu)劣勢？

馬斯克“掀桌子”，AI大模型+自動駕駛會誕生什么？

01 V12新版本背后，最重要的顛覆性變化是什么？

02 純視覺方案，有哪些優(yōu)劣勢？