界面新聞?dòng)浾?| 李如嘉
近日,埃安首款全球戰(zhàn)略車型——第二代AION V霸王龍正式發(fā)布,該車型將搭載廣汽與Momenta共同打造的端到端高階智駕方案,應(yīng)用了Momenta最領(lǐng)先的算法5.0。此前,另一家重要汽車制造廠商,廣汽豐田也宣布了其鉑智3X車型將首發(fā)搭載該智駕大模型。Momenta已成為中國(guó)第一批量產(chǎn)端到端方案的公司之一。
如今,通用大模型成為AI業(yè)界的主流趨勢(shì),位處不同場(chǎng)景的AI公司都在探索如何將大模型落地自身所在的產(chǎn)業(yè)。在自然語言處理場(chǎng)景下有大語言模型,在智能駕駛場(chǎng)景下,“端到端大模型”則成為了最近的最熱話題。
由特斯拉FSD V12開始,今年來國(guó)內(nèi)也有幾家頭部智駕公司官宣了自己的端到端大模型,在其中,Momenta的智駕大模型仍顯得與眾不同,其創(chuàng)新性地采用“短期記憶”和“長(zhǎng)期記憶”兩條支路,使得最終端到端大模型的訓(xùn)練成本可以縮小10到100倍,顯著提高訓(xùn)練效率。
目前,Momenta已經(jīng)與全球排名前十的汽車集團(tuán)中的一半展開量產(chǎn)合作,成為了交付車型最多的智能駕駛公司。8年的發(fā)展以來,這家公司探索出一條獨(dú)特而成熟的發(fā)展路徑,并在今年年初通過證監(jiān)會(huì)備案,正式啟動(dòng)赴美上市。如果成功,它會(huì)成為美股中國(guó)自動(dòng)駕駛第一股。
Momenta,正走在超越智駕摩爾定律的路上。
做最省錢的“智駕大模型”
端到端可謂是這兩年來自動(dòng)駕駛行業(yè)最熱的話題之一。目前,通用大模型是AI技術(shù)的最新發(fā)展趨勢(shì),不管在自然語言處理、計(jì)算機(jī)視覺還是自動(dòng)駕駛,都在逐漸由多個(gè)專用小模型驅(qū)動(dòng),進(jìn)化到將這些模型融合為一個(gè)更加通用的大模型去完成任務(wù)。
2024年,特斯拉的完全自動(dòng)駕駛系統(tǒng)FSD V12上線,將感知到?jīng)Q策融為一個(gè)貫通的大模型,即“端到端大模型”:一端輸入攝像頭等傳感器獲得的數(shù)據(jù),另一端直接輸出車輛行駛軌跡。最直觀來說,FSD V12的端到端神經(jīng)網(wǎng)絡(luò)取代了30多萬行C++代碼。
特斯拉一出手,包括蔚小理這樣的新勢(shì)力車企,和地平線、元戎啟行、毫末智行、商湯絕影等多家智駕公司都宣布跟進(jìn)這一技術(shù)路線。但是實(shí)際上,各家所謂的“端到端”并非都是同一種框架下的產(chǎn)品。
自動(dòng)駕駛有感知、規(guī)劃與決策和控制三個(gè)模塊,靠感知 “看”,靠決策 “思考” 怎么開車,靠控制模塊完成駕駛行為。國(guó)內(nèi)目前大部分“端到端”還停留在已構(gòu)建感知模塊模型,探索規(guī)劃、控制模型的階段,三者還未做到完全融合。而Momenta的智駕大模型,已將視覺模型和決策模型合并,變成了一個(gè)貫通的端到端大模型,Momenta也成為中國(guó)第一批量產(chǎn)端到端方案的公司。
Momenta對(duì)智駕領(lǐng)域的端到端,或者說深度學(xué)習(xí)的探索最早開始在2020年,到2022年初,開始量產(chǎn)高速NOA,Momenta決定選擇用深度學(xué)習(xí)方法做量產(chǎn)方案的決策模塊,2023年上半年,基于深度學(xué)習(xí)的規(guī)劃算法已經(jīng)可以成熟量產(chǎn)上車,這個(gè)時(shí)間點(diǎn)甚至早于特斯拉。
在端到端上,Momenta與特斯拉的路線相似但不同,最大的創(chuàng)新點(diǎn)在于,其智駕大模型分為兩條支路——“短期記憶”和“長(zhǎng)期記憶”。
"短期記憶"由感知(DDLD、DDOD)和記憶與深度學(xué)習(xí)的規(guī)劃(DLP)構(gòu)成。通過這樣的方式,可以先進(jìn)行快速訓(xùn)練,驗(yàn)證用于訓(xùn)練的數(shù)據(jù)是否正確,以及訓(xùn)練使用的算法是否有效。最終,被“短期記憶”驗(yàn)證過的好的算法和數(shù)據(jù)會(huì)在一段時(shí)間的積累后應(yīng)用在“長(zhǎng)期記憶”,即最終的端到端大模型上,這樣可以保證一次就能把大模型訓(xùn)練好。
這樣的邏輯與人類學(xué)習(xí)的邏輯類似,人類在探索環(huán)境的過程中同樣會(huì)先更新短期記憶,然后再將已經(jīng)驗(yàn)證過的成功經(jīng)驗(yàn)更新進(jìn)長(zhǎng)期記憶中,這樣就能夠更加低成本、短周期地去適應(yīng)環(huán)境。
“低成本+短周期”,這正是現(xiàn)在端到端,乃至所有通用大模型最需要的東西。
“用深度學(xué)習(xí)去做自動(dòng)駕駛是一個(gè)開始,不是一個(gè)結(jié)束”曹旭東說。智駕大模型構(gòu)建起來之后,未來還需要很多的探索和升級(jí)。
在學(xué)術(shù)界,端到端并不是一個(gè)新鮮的概念,已經(jīng)有諸多相關(guān)論文和研究。但是直到去年,在帶高階輔助駕駛功能的量產(chǎn)車大規(guī)模落地后,有了海量數(shù)據(jù)和海量算力加持,這才取得了突破性進(jìn)展。這也證明了,在探索的過程中,大模型的演進(jìn)邏輯決定了,其需要大量的數(shù)據(jù)和算力的投入才能達(dá)成一定的訓(xùn)練效果,這同時(shí)也意味著巨大的成本投入。
“從特斯拉的開發(fā)經(jīng)驗(yàn)來看,端到端自動(dòng)駕駛真不是一般的企業(yè)能玩的,其所需的數(shù)據(jù)規(guī)模、算力規(guī)模遠(yuǎn)遠(yuǎn)超出國(guó)內(nèi)企業(yè)的承受能力?!庇兄悄荞{駛業(yè)內(nèi)人士告訴界面新聞。
該業(yè)內(nèi)人士判斷,數(shù)據(jù)會(huì)占據(jù)端到端自動(dòng)駕駛開發(fā)中80%以上的研發(fā)成本。根據(jù)特斯拉的計(jì)算,完成一個(gè)端到端自動(dòng)駕駛的訓(xùn)練至少需要100萬個(gè)、分布多樣、高質(zhì)量的 Clips (視頻片段)。算力也是很大的限制。為了能在云端處理這些數(shù)據(jù),當(dāng)前特斯拉擁有近10萬張英偉達(dá)的A100,位居全球top5。埃隆·馬斯克在社交平臺(tái)表示去年花了20億美金構(gòu)建特斯拉的數(shù)據(jù)中心,今年計(jì)劃用100億美金做自動(dòng)駕駛的訓(xùn)練和推理。其目標(biāo)是,依靠英偉達(dá)的GPU和自身的Dojo超級(jí)計(jì)算機(jī),要在2024年底達(dá)到100EFlops的算力,遙遙領(lǐng)先。
而在美國(guó)多輪制裁之下,國(guó)內(nèi)采購(gòu)GPU難上加難。大部分企業(yè)手里擁有的算力資源非常有限,擁有超過1000張A100的企業(yè)寥寥無幾,甚至全國(guó)加起來都沒有特斯拉一家企業(yè)多。
如此高的投入使得自動(dòng)駕駛大模型的試錯(cuò)成本昂貴,如果訓(xùn)練方法或者數(shù)據(jù)處理做得不好,一次模型訓(xùn)練所花費(fèi)幾百萬美金可能就會(huì)打水漂。
而曹旭東透露,Momenta使用“長(zhǎng)期記憶”和“短期記憶”配合的方式,能夠讓智駕大模型的訓(xùn)練成本縮小10到100倍。這無疑是一個(gè)無比誘人的數(shù)字。
面對(duì)特斯拉在數(shù)據(jù)和算力上的先發(fā)優(yōu)勢(shì),Momenta為國(guó)內(nèi)企業(yè)提供了在端到端大模型上加速趕超的有效解法。
超越智駕的“摩爾定律”
創(chuàng)立之初,Momenta在一眾智駕公司中就顯得有些“與眾不同”。智能駕駛技術(shù)的實(shí)現(xiàn)路徑一直存在漸進(jìn)式與跨越式之爭(zhēng)。漸進(jìn)式路線是指從難度相對(duì)較低的輔助駕駛?cè)胧郑鸩酵瓿蓮?/span>L0到L5的布局;跨越式路線則是提倡直接研發(fā)L4及以上自動(dòng)駕駛,一步到位。
當(dāng)各家公司紛紛試圖證明自己選擇的那一方才是最優(yōu)路線時(shí),Momenta選擇了“兩個(gè)都要”,即“一個(gè)飛輪,兩條腿”的戰(zhàn)略。
“一個(gè)飛輪”是數(shù)據(jù)驅(qū)動(dòng)的AI飛輪。實(shí)現(xiàn)規(guī)?;療o人駕駛需要解決的最重要的問題就是長(zhǎng)尾問題(corner case),這些問題在實(shí)際生活中很少見,但是無人駕駛系統(tǒng)在設(shè)計(jì)時(shí)必須做到覆蓋,在遇到時(shí)才能夠應(yīng)對(duì)。
這樣的長(zhǎng)尾問題有數(shù)百萬個(gè),因此很難用人工針對(duì)每一個(gè)問題設(shè)定規(guī)則、逐一攻破。Momenta提出的解法是以數(shù)據(jù)驅(qū)動(dòng)的飛輪自動(dòng)化地解決。這樣的解法現(xiàn)在也成為了自動(dòng)駕駛界的共識(shí),而領(lǐng)先一步的Momenta目前數(shù)據(jù)驅(qū)動(dòng)的飛輪已經(jīng)迭代到第五代。從第一代能夠自動(dòng)化地解決50%的問題,到現(xiàn)在超過99%的問題都可以通過第五代系統(tǒng)自動(dòng)化地去解決,極大提升了整個(gè)研發(fā)迭代的效率。埃安本次與Momenta合作的車型上就搭載了其算法5.0。
那么,有了數(shù)據(jù)飛輪算法,究竟需要多少數(shù)據(jù)才能夠?qū)崿F(xiàn)規(guī)?;?/span>L4呢?
根據(jù)Momenta的測(cè)算,驗(yàn)證一套系統(tǒng)是否達(dá)到了可規(guī)?;?/span>L4水平,需要至少1000億公里的數(shù)據(jù)。這樣大的數(shù)據(jù)量必須要量產(chǎn)車才能采集到。
基于此,Momenta又有了“兩條腿”走路的產(chǎn)品戰(zhàn)略,即通過量產(chǎn)車上人類司機(jī)的海量駕駛數(shù)據(jù)自動(dòng)化地訓(xùn)練算法,實(shí)現(xiàn)算法的快速成長(zhǎng)。隨著數(shù)據(jù)積累和算法迭代,飛輪也將越轉(zhuǎn)越快。
最終,Momenta的目標(biāo)是實(shí)現(xiàn)全國(guó)都能開甚至全球都能開的可規(guī)模化L4,并且能夠達(dá)到10余倍人類司機(jī)的安全水平。
無疑,智駕大模型大規(guī)模量產(chǎn)后,Momenta的飛輪會(huì)轉(zhuǎn)得更快。
Momenta內(nèi)部有智駕的摩爾定律的說法,包含智駕硬件的摩爾定律和智駕軟件的摩爾定律兩個(gè)部分。在硬件上,每?jī)赡暧布某杀緯?huì)降一半,在軟件上,每?jī)赡曛邱{的水平至少提升10倍。
“未來,能夠跟上(智駕)摩爾定律的公司能夠生存,能超越摩爾定律的公司能夠成為一家卓越的公司?!辈苄駯|說。
2016年成立以來,Momenta已有8年的歷史,上汽、通用汽車、奔馳、豐田等車企都與其有合作,最終這些企業(yè)也成為了Momenta的戰(zhàn)略投資人。
車企之外,Momenta的投資人名單里還有知名投資機(jī)構(gòu)如淡馬錫、IDG資本、GGV紀(jì)源資本,也有互聯(lián)網(wǎng)大廠如騰訊、馬云的云鋒基金、小米系順為資本,以及博世這樣的一級(jí)供應(yīng)商,陣容堪稱豪華。
這家公司現(xiàn)在已與全球排名前十的汽車集團(tuán)中的一半企業(yè)開展量產(chǎn)合作,是最早開始做量產(chǎn)交付的智駕公司,同時(shí)也是目前交付車型最多的公司。已交付過類似高階方案的供應(yīng)商現(xiàn)在只有華為和Momenta,自研智駕的車企中,則只有蔚小理。
Momenta,正走在超越智駕摩爾定律的路上。