界面新聞?dòng)浾?| 李如嘉
界面新聞編輯 | 文姝琪
3月18日,特斯拉開始在北美地區(qū)全面推送FSD(全自動(dòng)駕駛)V12.3版本,這是去年公布V12以來,其向所有FSD用戶推送的第一個(gè)正式版本,預(yù)計(jì)將在近期實(shí)現(xiàn)全面覆蓋。
這次更新格外引人注目的關(guān)鍵在于,V12版本引入了“端到端神經(jīng)網(wǎng)絡(luò)”技術(shù),使用神經(jīng)網(wǎng)絡(luò)替代了規(guī)則代碼。
2024年以來,“端到端”成為了自動(dòng)駕駛界最火熱的概念,多家企業(yè)跟進(jìn)特斯拉采取這一技術(shù)路線。
1月30日,何小鵬表示小鵬智駕未來將實(shí)現(xiàn)端到端模型全面上車,據(jù)報(bào)道,蔚來將在今年上半年推出端到端架構(gòu)的主動(dòng)安全功能;理想的新模型也將在今年上半年上線,算法新架構(gòu)將不限制道路范圍,全國都能開。
3月17日,元戎啟行宣布已經(jīng)成功將端到端模型適配到量產(chǎn)車上,該批量產(chǎn)車將于今年投入消費(fèi)者市場。毫末智行也表示正在進(jìn)行端到端模型的研發(fā)。
讓眾多車企和自動(dòng)駕駛公司紛紛押注的“端到端”,究竟有何魔力?
“像人類一樣開車”的端到端模型
“比之前任何版本都更接近人類的駕駛方式?!币晃惶厮估璅SD V12.3版本的被推送用戶體驗(yàn)后在社交平臺上這樣感嘆,“在高速公路上變道和匯入車流時(shí)比我還要開得好?!?/span>
根據(jù)網(wǎng)絡(luò)上的測評視頻,最新版本的特斯拉在一些突發(fā)事件中表現(xiàn)非常好,例如在車側(cè)有自行車出現(xiàn)時(shí),系統(tǒng)會選擇減速通過;在車道前方突然有車輛停止時(shí),系統(tǒng)也可以根據(jù)左側(cè)車道的情況順暢變道;在行人亂穿馬路時(shí),即使是綠燈系統(tǒng)也先選擇了禮讓行人,再通過路口。
雖然也有選錯(cuò)車道、在視野被遮擋時(shí)沒能識別路口消防車的問題。但整體來看,采取端對端模型之后,特斯拉的自動(dòng)駕駛更像一位人類司機(jī),少了程序化的機(jī)械感,更加靈活、人性化。
自動(dòng)駕駛的實(shí)現(xiàn)是通過輸入攝像頭采集的視頻、GPS位置信息等,輸出駕駛決策。與大部分復(fù)雜AI任務(wù)一樣,自動(dòng)駕駛的實(shí)現(xiàn)一般有兩種技術(shù)路線:分治法和端到端。
目前,國內(nèi)消費(fèi)市場的智能駕駛系統(tǒng)采用的都是傳統(tǒng)分治法,將自動(dòng)駕駛?cè)蝿?wù)切分為感知、預(yù)測、規(guī)劃三個(gè)獨(dú)立的模型,再進(jìn)行系統(tǒng)集成來完成整個(gè)自動(dòng)駕駛?cè)蝿?wù)。
分治法的優(yōu)點(diǎn)在于將復(fù)雜的自動(dòng)駕駛?cè)蝿?wù)拆解為大量相對簡單的子任務(wù),大幅度降低了系統(tǒng)開發(fā)難度。這樣構(gòu)成的系統(tǒng)具備很好的可解釋性,可以針對每個(gè)模塊的輸入輸出進(jìn)行白盒化分析,一旦發(fā)生事故,可以深入分析,找到具體的問題點(diǎn)。
但是弊端在于需要編寫的代碼量巨大,系統(tǒng)設(shè)計(jì)時(shí)引入了太多的人為先驗(yàn)經(jīng)驗(yàn),導(dǎo)致自動(dòng)駕駛能力上限比較低,系統(tǒng)的泛化性比較差,對于沒有見過的場景往往無法處理。
“模塊化的模型是基于規(guī)則的,駕駛動(dòng)作的‘機(jī)械感’很強(qiáng),但實(shí)際的道路狀況千變?nèi)f化,規(guī)則無法全部解決?!痹謫⑿蠧EO周光告訴界面新聞。
比如壓實(shí)線的規(guī)則在大多數(shù)時(shí)候必須嚴(yán)格遵守,但在路邊有很多違停車輛,或者道路施工的情況下,車輛不得不壓點(diǎn)實(shí)線,借個(gè)道才能通過。遇到這樣需要靈活處理的情況,使用分治法的系統(tǒng)只能依賴提前寫好的程序來應(yīng)對,這意味著工程師需要為每一種細(xì)分場景設(shè)定不同的規(guī)則,代碼越寫越長,但場景卻無窮無盡。
在這種分裂的模塊化架構(gòu)下,信息的傳遞會出現(xiàn)減損,系統(tǒng)程序復(fù)雜,集成困難,維護(hù)難度大。
“在模塊化的架構(gòu)下,一位工程師一天只能處理10多個(gè)case,效率不高?!敝芄庋a(bǔ)充。
而端到端模型則將感知、預(yù)測、規(guī)劃三個(gè)模型融為一體,無需冗長的代碼來制定規(guī)則,而是通過用海量數(shù)據(jù)去訓(xùn)練系統(tǒng),讓機(jī)器擁有自主學(xué)習(xí)、思考和分析的能力,能更好地處理復(fù)雜的駕駛?cè)蝿?wù)。
“FSD Beta v12將城市街道駕駛堆棧升級為端到端神經(jīng)網(wǎng)絡(luò),經(jīng)過數(shù)百萬個(gè)視頻訓(xùn)練,取代了30多萬行C++代碼?!碧厮估母氯罩局腥绱私榻BV12。
由于任務(wù)更少、避免了大量重復(fù)處理,端到端自動(dòng)駕駛可以提高計(jì)算效率,并且可以通過不斷擴(kuò)展數(shù)據(jù)來提升系統(tǒng)的能力上限。
在學(xué)術(shù)界,端到端并不是一個(gè)新鮮的概念,已經(jīng)有諸多相關(guān)論文和研究。但是直到去年,在帶高階輔助駕駛功能的量產(chǎn)車大規(guī)模落地后,有了海量數(shù)據(jù)和海量算力加持,這才取得了突破性進(jìn)展。
Chat GPT的出現(xiàn)也讓端到端自動(dòng)駕駛看到了新的希望。
“如果選擇端到端,就需要持續(xù)且巨大的投入,并且短期內(nèi)也不一定看得到結(jié)果,這不是一個(gè)輕易的決定。但OpenAI驗(yàn)證了Scaling Law(標(biāo)度律)在大語言模型上的奏效,讓大家看到了端對端自動(dòng)駕駛也有出現(xiàn)‘涌現(xiàn)’的可能性。”有業(yè)內(nèi)人士告訴界面新聞?dòng)浾摺?/span>
只有頭部玩家才能進(jìn)入的賽道
“從特斯拉的開發(fā)經(jīng)驗(yàn)來看,端到端自動(dòng)駕駛真不是一般的企業(yè)能玩的,其所需的數(shù)據(jù)規(guī)模、算力規(guī)模遠(yuǎn)遠(yuǎn)超出國內(nèi)企業(yè)的承受能力。除了成本高昂,端到端自動(dòng)駕駛的技術(shù)難度也非常高,想要實(shí)現(xiàn)從學(xué)術(shù)到產(chǎn)品落地,相當(dāng)于跨越從二踢腳到登月的難度。”毫末智行數(shù)據(jù)智能科學(xué)家賀翔告訴界面新聞。
如此龐大的投入究竟值得嗎?不同企業(yè)有不同看法。
“我們對端到端自動(dòng)駕駛系統(tǒng)能否全面應(yīng)對自動(dòng)駕駛挑戰(zhàn)表示擔(dān)憂,認(rèn)為其還不夠完備,并且沒有必要性,端到端用在自動(dòng)駕駛系統(tǒng)上大材小用了?!弊詣?dòng)駕駛技術(shù)公司Mobileye的創(chuàng)始人、 總裁兼首席執(zhí)行官Amnon Shashua認(rèn)為,“Mobileye不需要一個(gè)端到端的系統(tǒng)來覆蓋所有的角落情況。”
他表示,目前公司已經(jīng)掌握了足夠的數(shù)據(jù)量去證明自己的智能駕駛系統(tǒng),但如果選擇端到端模型,其需要的數(shù)據(jù)量將呈指數(shù)級增長。
“毫不夸張地說,數(shù)據(jù)會占據(jù)端到端自動(dòng)駕駛開發(fā)中80%以上的研發(fā)成本?!辟R翔判斷。
根據(jù)特斯拉的計(jì)算,完成一個(gè)端到端自動(dòng)駕駛的訓(xùn)練至少需要100萬個(gè)、分布多樣、高質(zhì)量的 clips (視頻片段)才能正常工作。而在2023 年初,特斯拉就聲稱已經(jīng)分析了從特斯拉客戶的汽車中收集的1000萬個(gè)clips。
解決數(shù)據(jù)采集問題只是第一步,算力也是很大的限制。為了能在云端處理這些數(shù)據(jù),當(dāng)前特斯拉擁有近10萬張英偉達(dá)的A100,位居全球top5。其目標(biāo)是,依靠英偉達(dá)的GPU和自身的Dojo超級計(jì)算機(jī),要在2024年底達(dá)到100EFlops的算力,遙遙領(lǐng)先。
而在美國多輪制裁之下,國內(nèi)采購GPU難上加難。賀翔表示,“大部分企業(yè)手里擁有的算力資源非常有限,擁有超過1000張A100的企業(yè)寥寥無幾,甚至全國加起來都沒有特斯拉一家企業(yè)多?!?/span>
即使有了數(shù)據(jù)和算力,如何設(shè)計(jì)合適的自動(dòng)駕駛算法來進(jìn)行端到端訓(xùn)練,依然沒有統(tǒng)一的答案。端到端自動(dòng)駕駛的評估也十分困難。如何將系統(tǒng)從云端搬到算力和功耗都有限制的車上進(jìn)行泛化又是難題。
端到端模型還有一個(gè)關(guān)鍵的弱點(diǎn)在于可解釋性。當(dāng)出現(xiàn)問題時(shí),其無法像傳統(tǒng)自動(dòng)駕駛?cè)蝿?wù)一樣將中間結(jié)果拿出來進(jìn)行分析,難以對事故、售后定責(zé)等問題給出有效的證據(jù),也難以直接對出現(xiàn)問題的環(huán)節(jié)進(jìn)行改進(jìn)。
端到端模型,上車!
縱然面對各種挑戰(zhàn),業(yè)界對端對端模型也抱有不同看法。仍有企業(yè)相信,端到端自動(dòng)駕駛是未來最有希望實(shí)現(xiàn)無人駕駛的途徑之一,并且已經(jīng)開始在這條道路上加深探索。
“我認(rèn)為特斯拉也會迎來一個(gè)所謂的‘ChatGPT 時(shí)刻’,就算不是今年,我認(rèn)為也不會遲于明年。這意味著某一天,突然之間,300萬輛特斯拉汽車可以自己駕駛……然后是500萬輛,然后是1000萬輛……”馬斯克在去年5月接受CNBC專訪時(shí)說。
周光也在公司內(nèi)部提到過,他希望元戎啟行能夠做端對端自動(dòng)駕駛Scaling Law的驗(yàn)證者。
元戎啟行是國內(nèi)第一家能夠?qū)⒍说蕉四P统晒ι宪嚨娜斯ぶ悄芷髽I(yè),并宣布已與英偉達(dá)達(dá)成合作,將于2025年采用英偉達(dá)的DRIVE Thor芯片適配公司的端到端智能駕駛模型。在2023年8月,公司已經(jīng)運(yùn)用端到端模型完成了道路測試。
在安全性問題上,元戎表示,剛開始把端到端模型上車的時(shí)候,會有很多兜底策略保證安全。譬如,發(fā)現(xiàn)將要發(fā)生碰撞時(shí),系統(tǒng)就會啟動(dòng)安全模型,讓車很早就進(jìn)入保守的策略,避免出現(xiàn)安全事故。未來,隨著端到端模型表現(xiàn)越來越好,兜底策略會越來越簡化。
“算法上元戎有很深的積累,算力資源層面我們和英偉達(dá)有深度技術(shù)合作,我們的大股東阿里也會為我們提供支持,數(shù)據(jù)層面,我們已經(jīng)和多家車企有了量產(chǎn)合作,客戶為我們提供了很多有價(jià)值的數(shù)據(jù)?!敝芄鈱Χ藢Χ说穆肪€有著很大的信心。
正在進(jìn)行研發(fā)的毫末則采取了將端到端大模型進(jìn)行拆分的方式來降低訓(xùn)練難度:一個(gè)階段解決感知問題,即讓模型看懂世界,一個(gè)階段解決認(rèn)知問題,即做出駕駛決策。這樣做的好處一是可以先獨(dú)立訓(xùn)練,再進(jìn)行調(diào)和,降低訓(xùn)練難度,二是在不同的階段可以采用不同的數(shù)據(jù),大幅降低數(shù)據(jù)成本。
此外,毫末還在端到端自動(dòng)駕駛中引入了LLM(大語言模型),通過感知大模型識別后,將這些信息輸入LLM,通過LLM來提取世界知識,并作為輔助特征來指導(dǎo)駕駛決策。
但據(jù)賀翔介紹,這個(gè)系統(tǒng)極為復(fù)雜,算力消耗非常大,目前還只能在云端運(yùn)行,未來幾年將加快向車端的落地。
端對端的未來還有哪些可能性呢?賀翔提到,為了解決長尾數(shù)據(jù)問題,業(yè)界也在嘗試用AIGC技術(shù)構(gòu)造數(shù)據(jù)。
面對一個(gè)尚未解決的問題,如果現(xiàn)實(shí)環(huán)境難以采集到類似的數(shù)據(jù),例如車禍,可以考慮使用 AIGC技術(shù)來定向生成類似場景的數(shù)據(jù),來快速提升效果。也可以使用仿真引擎來構(gòu)造類似的場景,生成數(shù)據(jù)。
隨著越來越多的端到端駕駛系統(tǒng)投入研發(fā)、落地,這一技術(shù)的未來也會越來越清晰。但是對于企業(yè)來說,起跑的槍聲已經(jīng)打響,路線是關(guān)鍵,而朝著選好的方向狂奔,也是他們不得不的選擇。