文|上海汽車報(bào)
車圈的智駕隊(duì)伍越來越大。僅看這次廣州車展前后,車圈聲量最大的,幾乎都是智駕和智能。
10月份,宣稱將“扔掉方向盤或踏板”特斯拉Robotaxi初一亮相,就掀起了全球的關(guān)注熱潮。11月15日,雷軍在廣州車展上發(fā)布小米超級智能駕駛HAD,成為目前最新一家端到端大模型“上車”的車企。截至目前,除了最先應(yīng)用端到端大模型的特斯拉,中國的理想、蔚來、華為、小鵬、智己、小米等多家車企也已宣布實(shí)現(xiàn)端到端“上車”。就連老牌車企也不甘寂寞,廣汽豐田應(yīng)用Momenta的智駕,甚至喊出了“有路就開廣豐智駕”的口號。
同時(shí)伴生的,是在這個(gè)全新生態(tài)領(lǐng)域中,誕生出來的各種新興投資機(jī)會,上汽產(chǎn)業(yè)金融投資也開始敏銳布局,身影出現(xiàn)在一家2023年12月新成立的自動(dòng)駕駛芯片研發(fā)商的股東名單中。
風(fēng)口來了,圍繞端到端和人工智能,總有先行者會先站上去的。
在虛擬世界里“跑”智駕的大模型
以上這段看似實(shí)拍的視頻,其實(shí)是蔚來對世界模型技術(shù)的一次嘗試:整個(gè)視頻從第4秒開始,都是由“蔚來世界模型NWM”想象生成的。盡管目前技術(shù)尚不成熟,但基于3秒鐘視頻的Prompt(提示)輸入,蔚來世界模型已經(jīng)可以生成120秒想象的視頻。蔚來于2024年7月27日正式發(fā)布這一世界模型,可以全量理解信息、生成新的場景,甚至預(yù)測未來可能發(fā)生的事件。
端到端,顯然給智駕行業(yè)帶來了無窮的想象力。但是,端到端大模型的訓(xùn)練依賴大量優(yōu)質(zhì)數(shù)據(jù),而世界模型的應(yīng)用有望以低成本、高效率的手段,為端到端大模型的訓(xùn)練提供海量優(yōu)質(zhì)數(shù)據(jù)。
相較于模塊化設(shè)計(jì)架構(gòu),端到端設(shè)計(jì)架構(gòu)不再有規(guī)劃與控制這些人為設(shè)計(jì)的模塊,車輛的運(yùn)行決策全部交給神經(jīng)網(wǎng)絡(luò)大模型處理,因此不再需要工程師寫下海量的代碼。以特斯拉FSD為例,端到端大模型的“上車”,讓智駕系統(tǒng)從V11版本的30萬行代碼精簡到了V12版本的2000行代碼,但智能駕駛的表現(xiàn)卻有了顯著提升,真正實(shí)現(xiàn)了“像人類司機(jī)一樣”駕駛。
這正是擺脫了代碼規(guī)則約束后產(chǎn)生的效果。傳統(tǒng)的模塊化設(shè)計(jì)就像駕校里的新手司機(jī),只會按部就班執(zhí)行“教練”(即工程師編寫的代碼)的指令。因此,遇到“教練”教過的場景,智駕系統(tǒng)可以應(yīng)對。可是,一旦遇到?jīng)]有規(guī)則指導(dǎo)的Corner Case(邊角案例),車輛就會不知所措,短期內(nèi)可以通過增加規(guī)則來滿足更多的場景需求,但很容易觸達(dá)瓶頸和上限。而采用端到端設(shè)計(jì)架構(gòu)的智駕系統(tǒng)像是離開駕校,自己上路的新手司機(jī),不再有“教練”發(fā)出指令,智駕系統(tǒng)依靠端到端大模型自主判斷并做出決策,逐步成長為“老司機(jī)”,讓車輛的智能駕駛獲得更高的上限。
當(dāng)前,端到端自動(dòng)駕駛技術(shù)的發(fā)展遵循漸進(jìn)的路徑:在感知模塊,多家車企已經(jīng)通過“BEV(鳥瞰視角)+OCC(占用網(wǎng)絡(luò))+Transformer(一種基于?自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型)”的“組合拳”實(shí)現(xiàn)了端到端架構(gòu);決策模塊也在逐步從依賴手寫規(guī)則向基于深度學(xué)習(xí)的模式轉(zhuǎn)變。
不過,目前中國企業(yè)對于端到端自動(dòng)駕駛研發(fā)的策略存在分歧,“上車”的進(jìn)度也不一致:華為、小鵬等企業(yè)仍然采用感知和規(guī)劃控制兩段的“模塊化端到端”,兩個(gè)大模型之間依然存在規(guī)則連接;理想、蔚來、智己、商湯絕影等企業(yè)則采用“一段式端到端”(也被稱為“單一模型端到端”),從原始信號輸入到最終規(guī)劃軌跡的輸出直接采用單一深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。前者設(shè)置規(guī)則,將大模型黑盒做了灰盒化,模型可解釋性更好;后者數(shù)據(jù)信息丟失更少,上限更高。
世界模型為自動(dòng)駕駛 打造云上乾坤
值得注意的是,特斯拉雖然是最早公布采用端到端智駕方案的車企,但并未表明他們采用的是“一段式端到端”還是“模塊化端到端”架構(gòu)。不過,從馬斯克在社交媒體上的一些表態(tài)推測,特斯拉所采用的端到端模型,可能是一種基于生成式人工智能、更高級的端到端大模型。
生成式人工智能模型要解決的核心問題是數(shù)據(jù)問題。大模型就像一位天賦極高的學(xué)生,但需要大量的“學(xué)習(xí)資料”,也就是數(shù)據(jù)進(jìn)行訓(xùn)練。不過,能夠用于訓(xùn)練的數(shù)據(jù)并不多見。馬斯克曾表示,千篇一律的正常行駛數(shù)據(jù)價(jià)值極低,有效性可能不足萬分之一。但是,如果用事故數(shù)據(jù)訓(xùn)練端到端模型,能適應(yīng)的工況也有限。
以ChatGPT、Sora為代表的生成式人工智能大模型為端到端大模型的訓(xùn)練帶來了啟發(fā)。“數(shù)據(jù)采集車隊(duì)跑100萬公里都不一定會遇到‘兩輛卡車相撞,其中一輛側(cè)翻’的場景。但是,通過大模型,只需要以相應(yīng)的文本輸入,一段對應(yīng)的駕駛場景視頻就能迅速生成。”上汽創(chuàng)投(上汽金控全資子公司)投資經(jīng)理丁華宇表示,“特斯拉FSD以30秒左右的視頻作為訓(xùn)練素材,多模態(tài)大模型可以迅速生成這種極端工況的行駛數(shù)據(jù),幫助訓(xùn)練模型?!?/p>
值得注意的是,這里所用的并不是傳統(tǒng)的生成式模型,而是更貼近當(dāng)前人工智能領(lǐng)域前沿的“世界模型”(World Models)。二者的區(qū)別在于:傳統(tǒng)的生成式模型或許能夠準(zhǔn)確預(yù)測籃球落地后會彈跳,但模型并不真正理解其中的原因,“彈跳”的結(jié)果是基于神經(jīng)網(wǎng)絡(luò)的概率推理給出最有可能符合預(yù)期的答案。世界模型則具有基本的物理認(rèn)知,更善于展現(xiàn)“籃球的真實(shí)彈跳”。換言之,世界模型能夠?yàn)槿斯ぶ悄芴峁├斫庹鎸?shí)的三維物理世界的能力,能夠像人一樣感知真實(shí)世界。這與馬斯克所說的“能夠利用精確的物理學(xué)知識生成現(xiàn)實(shí)世界視頻”不謀而合,也間接解釋了特斯拉在智能駕駛感知中擯棄激光雷達(dá)的原因:并非成本高,而是激光雷達(dá)的數(shù)據(jù)與視頻數(shù)據(jù)維度不同且更復(fù)雜,目前難以將激光雷達(dá)數(shù)據(jù)應(yīng)用到特斯拉的世界模型中。
由此看來,世界模型在端到端大模型訓(xùn)練中的優(yōu)勢十分明顯:一是可以低成本生成海量接近真實(shí)的、包含Corner Case的多樣化訓(xùn)練視頻數(shù)據(jù);二是模擬物理世界更真實(shí),可以幫助智駕模型在感知端的時(shí)空理解能力、環(huán)境想象的真實(shí)度與豐富度顯著提升;三是具備推理和理解的能力基礎(chǔ),模型可以自己推理學(xué)習(xí)因果,不再需要標(biāo)注,泛化能力大幅度提升。
“世界模型的最終形態(tài)可以理解為一個(gè)大模型的仿真器。有價(jià)值的Corner Case依靠實(shí)車采集比較難且成本高昂,依靠目前的仿真技術(shù)又不太準(zhǔn),所以依靠世界模型仿真提供訓(xùn)練素材是一個(gè)思路。此外,世界模型還可以用于推理和決策?!倍∪A宇表示。
投資機(jī)會在智駕推理芯片
智能駕駛有數(shù)據(jù)、算法、算力核心三個(gè)要素,上文分別從端到端大模型(即算法)與世界模型(即數(shù)據(jù))兩個(gè)方面探討了智能駕駛領(lǐng)域的前沿動(dòng)態(tài)。不過,算力也是不容忽視的要素。
“端到端模型更加依賴Scaling Law(尺度定律),即通過增加數(shù)據(jù)參數(shù)量、模型訓(xùn)練時(shí)間生成更大規(guī)模、更強(qiáng)性能的模型。以GPT為例,訓(xùn)練GPT-3大模型(1750億參數(shù))需要1000張A100 GPU一個(gè)月的算力,而訓(xùn)練GPT-4大模型(1.8萬億參數(shù))等效需要25000張A100 GPU 三個(gè)月以上的算力。模型高度依賴算力規(guī)模提升迭代速率?!倍∪A宇告訴記者。
換句話說,這是一個(gè)“大力出奇跡”的過程,無論是端到端模型還是世界模型,算力與性能直接掛鉤。未來,智駕領(lǐng)域新一輪算力軍備競賽將在車端與云端共同展開,目前中國依然在追趕領(lǐng)先者。
在算力規(guī)模方面,特斯拉在自研的超級計(jì)算機(jī)Dojo量產(chǎn)后,算力規(guī)模迅速攀升到全球前五的水平,并有望于今年達(dá)到100EFLOPS(1000萬億次浮點(diǎn)運(yùn)算)的算力規(guī)模。目前,中國企業(yè)中,即便是算力規(guī)模位居前列者,也落后特斯拉1-2個(gè)數(shù)量級??勺鳛閷Ρ鹊氖?,工信部對全國算力的規(guī)劃是:到2025年,全國算力規(guī)模超過300EFLOPS,屆時(shí)特斯拉的算力規(guī)模相當(dāng)于全國算力的1/3。
而在算力芯片方面,中國與美國的整體差距巨大。目前,大模型的云端訓(xùn)練芯片依然是英偉達(dá)一家獨(dú)大的局面;但是,在車端的智駕推理芯片方面,國產(chǎn)替代方案正逐步走向成熟,產(chǎn)業(yè)鏈上出現(xiàn)了能滿足整車廠智駕方案的車載芯片,也涌現(xiàn)出一批產(chǎn)業(yè)投資機(jī)會。
10月24日,上汽集團(tuán)投資的智駕科技企業(yè)地平線在香港交易所主板掛牌上市,募資總額達(dá)54億港元,成為港股今年以來最大的科技IPO。作為目前國內(nèi)最大規(guī)模量產(chǎn)智能駕駛解決方案的供應(yīng)商,地平線征程6系列智能計(jì)算方案“首發(fā)即爆款”,已獲得10家車企及品牌量產(chǎn)合作,將于2025年實(shí)現(xiàn)超10款車型量產(chǎn)交付。
“投早、投小、投科技”,除了類似地平線這種在行業(yè)內(nèi)赫赫有名的企業(yè),上汽產(chǎn)業(yè)金融投資還在不斷發(fā)掘更多有前景、有價(jià)值的投資標(biāo)的,以產(chǎn)業(yè)金融投資賦能產(chǎn)業(yè)發(fā)展、陪伴已投企業(yè)成長。
成立于2023年12月的自動(dòng)駕駛芯片研發(fā)商新芯航途是一個(gè)典型案例。新芯航途背靠Momenta,并且吸引了大批前OPPO旗下哲庫人才與前華為昇騰SoC團(tuán)隊(duì),擁有強(qiáng)大的技術(shù)實(shí)力與未來潛力。隨著汽車智能化、網(wǎng)聯(lián)化的加速發(fā)展,自動(dòng)駕駛芯片市場規(guī)模將持續(xù)擴(kuò)大,為企業(yè)帶來更多機(jī)遇。近期,新芯航途完成一輪融資,上汽創(chuàng)投現(xiàn)身股東名單,陪伴企業(yè)開啟自研智駕芯片的征程。
借助產(chǎn)業(yè)金融投資,上汽集團(tuán)戰(zhàn)略直投在新賽道上追蹤行業(yè)最新動(dòng)態(tài),積極拓寬版圖、發(fā)掘機(jī)會,全面布局汽車產(chǎn)業(yè)鏈、創(chuàng)新鏈、價(jià)值鏈,不斷加強(qiáng)與產(chǎn)業(yè)鏈上下游的戰(zhàn)略合作,打造圍繞上汽在新賽道上緊密聯(lián)盟的核心生態(tài)圈。關(guān)注前沿技術(shù),把握“早小”機(jī)會,上汽集團(tuán)戰(zhàn)略直投正致力于加大協(xié)同、加深賦能,以CVC產(chǎn)業(yè)資本為紐帶,助力上汽與已投企業(yè)共同實(shí)現(xiàn)雙向賦能和價(jià)值共創(chuàng)。