正在閱讀:

端到端、世界模型、車路云……誰將成為2025年“AI+交通”最熱詞?

掃一掃下載界面新聞APP

端到端、世界模型、車路云……誰將成為2025年“AI+交通”最熱詞?

變化,是唯一的不變。

文|極智GeeTech  

1942年,科幻小說家艾薩克·阿西莫夫(Isaac Asimov)在他的短篇小說《轉(zhuǎn)圈圈》(Runaround)中第一次明確提出了“機(jī)器人三定律”,這一定律也被稱為“現(xiàn)代人工智能技術(shù)的基石”。

阿西莫夫可能沒有完全預(yù)見到,八十年后的世界會(huì)多么接近他的科幻夢(mèng)想。

如今,人們生活在一個(gè)由人工智能滲透的世界里,這個(gè)世界在許多方面已超越阿西莫夫的想象。2024年,我們見證了一系列人工智能技術(shù)的創(chuàng)新與涌現(xiàn)。從AI視頻生成模型Sora到GPT-4o,一系列生成式人工智能新技術(shù)相繼問世、更新迭代,讓人感覺到似乎“未來已來”。

這一年,大模型、端到端、世界模型、車路云等已成為交通智能化領(lǐng)域最具革命性的技術(shù)應(yīng)用,不僅提升了駕駛體驗(yàn),還為城市交通的安全性、效率和可持續(xù)性帶來新的可能。

展望2025年,隨著人工智能與交通的進(jìn)一步深度融合,哪些技術(shù)領(lǐng)域充滿機(jī)遇?誰將引領(lǐng)新一年的行業(yè)發(fā)展?

BEV+OCC感知能力困局待解

對(duì)照著自動(dòng)駕駛領(lǐng)域這幾年的行業(yè)熱詞按圖索驥,可以把握自動(dòng)駕駛算法模型的發(fā)展脈絡(luò)。在特斯拉的帶動(dòng)下,自2021年至今,自動(dòng)駕駛行業(yè)這幾年的動(dòng)態(tài)熱詞依次為:BEV+Transformer、OCC占用網(wǎng)絡(luò)、無圖NOA、端到端。

BEV(鳥瞰圖)網(wǎng)絡(luò)通過矢量化的鳥瞰視角檢測(cè)白名單障礙物,OCC通過體素化的占用網(wǎng)絡(luò)預(yù)測(cè)3D空間的占位情況,實(shí)現(xiàn)對(duì)通用障礙物的感知,到無圖NOA的階段,自動(dòng)駕駛算法可以通過車道網(wǎng)絡(luò)實(shí)時(shí)建圖,構(gòu)建道路拓?fù)洹?/p>

再到今年大火的端到端,一方面,由于消除了傳統(tǒng)分模塊方案中各種小模型的冗余,計(jì)算資源得以集約化使用,神經(jīng)網(wǎng)絡(luò)的參數(shù)量或規(guī)模得以進(jìn)一步提升;另一方面,無論是分段式端到端還是一體式端到端,感知到?jīng)Q策之間的傳輸帶寬增加,信息損失減少,進(jìn)一步增強(qiáng)了系統(tǒng)的感知能力。

對(duì)于駕駛而言,感知交通環(huán)境信息越全面、越及時(shí),駕駛的安全性也就相對(duì)越高。因此,自動(dòng)駕駛系統(tǒng)對(duì)感知能力的需求是沒有上限的。

BEV網(wǎng)絡(luò)固然可以檢測(cè)白名單障礙物,但能檢測(cè)到1000多種物體基本上就是目前BEV網(wǎng)絡(luò)的感知上限。OCC占用網(wǎng)絡(luò)可以檢測(cè)通用障礙物,但OCC算法的運(yùn)算量跟隨網(wǎng)格的大小成倍變化,網(wǎng)格大小縮減一倍,OCC算法的運(yùn)算量將增加8倍,受限于算力和實(shí)時(shí)性,OCC網(wǎng)格的大小一般只能做到10厘米左右,這就意味著它很難檢測(cè)微小物體。在很多情況下,10公分大的物體足以造成交通事故了。

不僅如此,那些和駕駛安全、效率、舒適性密切相關(guān)的天氣、光照、雨霧等復(fù)雜語義,也是目前的BEV+OCC所解決不了的,而光照和天氣恰恰是可以影響自動(dòng)駕駛車輛行駛的關(guān)鍵要素。

數(shù)據(jù)正在成為端到端最大瓶頸

相較于分模塊的自動(dòng)駕駛方案,端到端方案主要解決了兩個(gè)問題。首先,從人工邏輯代碼到數(shù)據(jù)驅(qū)動(dòng),人工智能真正擺脫了“人工”,從此可以使用海量的數(shù)據(jù)迭代模型的性能;其次,通過自動(dòng)抽取信息,減少信息損失,可以充分利用數(shù)據(jù)中的信息。

在過去幾年的時(shí)間里,隨著Transformer+BEV+OCC的問世,分立級(jí)聯(lián)的感知模塊已經(jīng)慢慢完成了到端到端感知的切換,自2023年下半年以來這波端到端狂潮引發(fā)的“從人工邏輯代碼到數(shù)據(jù)驅(qū)動(dòng)”的轉(zhuǎn)變,其實(shí)主要體現(xiàn)在決策和規(guī)劃層面。

決策和規(guī)劃從一板一眼的手工編寫規(guī)則進(jìn)化到基于神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)直覺,這種AI化和端到端化使得可以通過海量數(shù)據(jù)不間斷訓(xùn)練優(yōu)化駕駛策略,復(fù)現(xiàn)擬人且絲滑的老司機(jī)腳法。決策和規(guī)劃的進(jìn)步是巨大的,相比之下,感知能力的進(jìn)步并不大。

端到端最核心的一點(diǎn)在于將自動(dòng)駕駛算法進(jìn)行了全面的AI化,轉(zhuǎn)向了完全的數(shù)據(jù)驅(qū)動(dòng),但這意味著需要更加海量的數(shù)據(jù)進(jìn)行模型的訓(xùn)練。

但對(duì)于到底需要多少數(shù)據(jù)才能訓(xùn)練出一個(gè)完美的自動(dòng)駕駛模型,業(yè)界并沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。之前有報(bào)道稱,特斯拉2024年初的視頻訓(xùn)練片段數(shù)量將近3000萬個(gè)。按照每個(gè)視頻片段30秒、30FPS的幀率、8個(gè)攝像頭計(jì)算,訓(xùn)練圖片數(shù)量高達(dá)220億張。

此外,這種規(guī)模的訓(xùn)練數(shù)據(jù)訓(xùn)練出來的自動(dòng)駕駛系統(tǒng)的等級(jí)仍未達(dá)到L3,自動(dòng)駕駛系統(tǒng)能力每提高一個(gè)等級(jí),需要的訓(xùn)練數(shù)據(jù)量至少會(huì)提升一個(gè)數(shù)量級(jí),也就是說,要達(dá)到L4,至少需要訓(xùn)練幾億個(gè)視頻片段。

端到端雖然強(qiáng)化了數(shù)據(jù)的作用,但大模型的引入?yún)s增加了龐大的數(shù)據(jù)標(biāo)注需求。在基于語言模型的自動(dòng)駕駛大模型中,其輸入是當(dāng)前駕駛場(chǎng)景的圖片,其輸出是各類交通參與者、道路拓?fù)?、交通信?hào)標(biāo)識(shí)的語義信息,這種模型不具備自回歸特性,進(jìn)行有監(jiān)督學(xué)習(xí),其訓(xùn)練需要海量的數(shù)據(jù)標(biāo)注工作。

這引發(fā)了一個(gè)新的問題:如果端到端自動(dòng)駕駛模型的訓(xùn)練還需要繼續(xù)打標(biāo)簽,在源源不斷產(chǎn)生的海量數(shù)據(jù)面前,還如何保證高效訓(xùn)練?這也是一直以來影響端到端進(jìn)一步發(fā)展的最大阻礙。

世界模型實(shí)現(xiàn)從感知到認(rèn)知的躍遷

無論是BEV檢測(cè)的白名單障礙物還是OCC占用網(wǎng)絡(luò)檢測(cè)的通用障礙物,從本質(zhì)上來說,都屬于基于判別式AI實(shí)現(xiàn)的對(duì)分立物體的單獨(dú)感知。

生成式AI大模型具備的超強(qiáng)理解能力使得視覺語言模型、大語言模型、世界模型可以建立對(duì)當(dāng)下場(chǎng)景的整體認(rèn)知,實(shí)現(xiàn)從感知到認(rèn)知的階躍。

舉例來說,BEV可以檢測(cè)到一個(gè)行人,大模型可以通過意圖理解判斷出這是一個(gè)要橫穿馬路的行人。BEV網(wǎng)絡(luò)可以檢測(cè)到前方的一個(gè)車輛,大模型可以更進(jìn)一步,通過長時(shí)序信息判斷出這是一個(gè)即將減速的車輛。

也就是說,在基于判別式AI的物體識(shí)別之外,生成式AI的意圖理解和長時(shí)序理解能力使其可以建立對(duì)整體駕駛環(huán)境的理解,更加貼近人類駕駛的知識(shí)邏輯。

自動(dòng)駕駛真正的挑戰(zhàn)并不在于能否檢測(cè)(感知)出各個(gè)獨(dú)立的物體,而是要準(zhǔn)確判斷(認(rèn)知)物體的意圖,根據(jù)車輛、行人微妙多變的姿態(tài)做出準(zhǔn)確的博弈和決策,只有建立了這樣復(fù)雜的語義理解和場(chǎng)景理解能力,才能像老司機(jī)那樣游刃有余地駕馭各種路況。而從部分到整體,從分立到連續(xù),從感知到認(rèn)知,正是大模型給傳統(tǒng)自動(dòng)駕駛感知技術(shù)棧帶來的重大轉(zhuǎn)變。

世界模型的引入標(biāo)志著自動(dòng)駕駛向數(shù)據(jù)驅(qū)動(dòng)智能的關(guān)鍵轉(zhuǎn)變,在這種智能中,預(yù)測(cè)和模擬未來情景的能力成為安全和效率的基石。

數(shù)據(jù)稀缺性問題,特別是在如數(shù)據(jù)標(biāo)注等專業(yè)任務(wù)中,突顯了世界模型的創(chuàng)新性和必要性。世界模型的訓(xùn)練數(shù)據(jù)是視頻序列,輸入是當(dāng)前時(shí)刻視頻,輸出是下一時(shí)刻視頻,可以像語言模型拿自帶標(biāo)簽信息的文字序列那樣進(jìn)行無監(jiān)督訓(xùn)練,不再需要數(shù)據(jù)標(biāo)注,這也就解決了傳統(tǒng)端到端模型訓(xùn)練需要精確標(biāo)注海量視頻數(shù)據(jù)的巨大難題。

同時(shí),通過從歷史數(shù)據(jù)中生成預(yù)測(cè)情景,世界模型不僅規(guī)避了數(shù)據(jù)收集和標(biāo)注帶來的限制,還增強(qiáng)了在模擬環(huán)境中訓(xùn)練自主系統(tǒng)的能力,這些環(huán)境可以反映甚至超越現(xiàn)實(shí)世界條件的復(fù)雜性。

這種方法預(yù)示著一個(gè)新時(shí)代的到來,在這個(gè)時(shí)代,自動(dòng)駕駛汽車具備反映某種直覺的預(yù)測(cè)能力,使它們能夠以前所未有的復(fù)雜程度響應(yīng)各類交通環(huán)境。

世界模型可以通過模擬和預(yù)測(cè)其他車輛、行人和動(dòng)態(tài)環(huán)境變化,從而幫助自主系統(tǒng)做出更安全、更高效的駕駛決策。例如,世界模型可以預(yù)測(cè)交通流量、路況變化以及潛在的風(fēng)險(xiǎn)因素,使自動(dòng)駕駛車輛能夠提前做出反應(yīng),避免事故和優(yōu)化行駛路徑。

盡管世界模型已經(jīng)表現(xiàn)出巨大的技術(shù)潛力,但其發(fā)展和應(yīng)用仍面臨挑戰(zhàn)。

首先,是數(shù)據(jù)的多樣性和質(zhì)量。世界模型依賴大量高質(zhì)量的數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試。然而,獲取和處理這些數(shù)據(jù)往往需要耗費(fèi)大量時(shí)間和資源。如何確保模型從多樣化和高質(zhì)量的數(shù)據(jù)中學(xué)習(xí),是下一階段世界模型在發(fā)展過程中迫切需要解決的問題。

其次,巨量的計(jì)算資源需求。訓(xùn)練和運(yùn)行世界模型需要大量的計(jì)算資源,特別是在處理高維數(shù)據(jù)和復(fù)雜場(chǎng)景時(shí)。

第三,模型的可解釋性。世界模型的復(fù)雜性使其決策過程難以解釋和理解,這將在醫(yī)療診斷、自動(dòng)駕駛等應(yīng)用場(chǎng)景中可能帶來潛在風(fēng)險(xiǎn)。

車路云,一個(gè)正在發(fā)生的潮流

如果說以上自動(dòng)駕駛技術(shù)都是“舶來品”,那么車路云一體化則是一個(gè)帶有鮮明“中國智慧”的技術(shù)方案。

2024年,是車路云一體化全面落地的里程碑年份。面對(duì)汽車智能化、網(wǎng)聯(lián)化的大勢(shì)所趨,中國率先提出車路云一體化與智能網(wǎng)聯(lián)汽車融合發(fā)展的新路徑,并發(fā)揮中國在統(tǒng)籌規(guī)劃、基礎(chǔ)設(shè)施建設(shè)、信息通信技術(shù)等方面的優(yōu)勢(shì),積極開展試點(diǎn)。

1月,工業(yè)和信息化部、公安部、交通運(yùn)輸部等五部門聯(lián)合印發(fā)《關(guān)于開展智能網(wǎng)聯(lián)汽車“車路云一體化”應(yīng)用試點(diǎn)的通知》,這是“車路云一體化”首次被寫入國家政策文件。7月,五部門正式對(duì)外公布《關(guān)于智能網(wǎng)聯(lián)汽車“車路云一體化”應(yīng)用試點(diǎn)城市名單的通知》,共計(jì)20個(gè)城市進(jìn)入試點(diǎn),從南到北、由西至東覆蓋全國。

與單一技術(shù)最大限度挖掘自身潛力不同,車路云一體化更多體現(xiàn)的是一種“眾智”,其通過集成通信基站、衛(wèi)星通信和定位、各類傳感器、云控平臺(tái)等基礎(chǔ)設(shè)施,形成一個(gè)信息共享、高效協(xié)同的車路云網(wǎng)絡(luò),為普通汽車、智能汽車、機(jī)器人、無人機(jī)等所有智能設(shè)備提供系統(tǒng)級(jí)的實(shí)時(shí)數(shù)據(jù)服務(wù),同時(shí)能夠?qū)?shí)時(shí)數(shù)據(jù)信息在云平臺(tái)進(jìn)行海量交互與智能分析,在系統(tǒng)層面解決全局安全、全局效率與全局博弈問題。

站在系統(tǒng)發(fā)展角度看,自動(dòng)駕駛追求越來越極致的智能化,而車路云一體化則追求的是極致的系統(tǒng)智能。車路云網(wǎng)絡(luò)讓車輛不再是孤立的智能體,而是融入到一個(gè)更大范圍的智能交通生態(tài)系統(tǒng)中。

道路上布設(shè)的智能路側(cè)設(shè)施如AI數(shù)字道路基站、V2X通信設(shè)備能夠?qū)崟r(shí)監(jiān)測(cè)路況,通過多源數(shù)據(jù)融合技術(shù),將不同類型、不同來源的數(shù)據(jù)進(jìn)行有機(jī)整合,從而為后續(xù)的數(shù)據(jù)分析提供更豐富的素材。

根據(jù)車百智庫研究報(bào)告顯示,一輛L4級(jí)別自動(dòng)駕駛汽車,每日通過車內(nèi)外傳感器采集的行駛數(shù)據(jù)、環(huán)境數(shù)據(jù)和行為數(shù)據(jù)等,已達(dá)到10TB量級(jí),是傳統(tǒng)汽車的5-10倍。其預(yù)計(jì),在路上行駛的智能汽車每年上傳到云端的數(shù)據(jù)超過7萬PB。

在收集到海量的交通數(shù)據(jù)之后,云端利用大數(shù)據(jù)和AI算法,對(duì)數(shù)據(jù)進(jìn)行分析與挖掘,從中提取有價(jià)值的信息。例如,通過對(duì)交通流量進(jìn)行數(shù)據(jù)分析,交管部門可以根據(jù)實(shí)時(shí)交通流和道路情況智能調(diào)整配時(shí)方案,提高道路通行效率。同時(shí),車輛也能接收到車路云網(wǎng)絡(luò)的信息,提前了解道路上的障礙和危險(xiǎn),從而采取相應(yīng)措施確保行車安全。

在數(shù)據(jù)分發(fā)與共享過程中,保障數(shù)據(jù)的安全性至關(guān)重要。智能車輛所采集的數(shù)據(jù)涵蓋了多種傳感器類型和數(shù)據(jù)源,通過這些數(shù)據(jù)不僅能夠高精度地全面掌握城市各交通要道的狀況,其中還可能會(huì)牽扯到重要區(qū)域的地理信息、人員流量、車輛流量等敏感數(shù)據(jù),以及臉部識(shí)別、聲紋、動(dòng)作等個(gè)人信息,這些數(shù)據(jù)一旦被泄露或被非法調(diào)用和共享,不僅會(huì)侵犯個(gè)人隱私,還可能會(huì)危及到國家安全。因此,在數(shù)據(jù)采集后,要根據(jù)國家相關(guān)法律法規(guī),對(duì)數(shù)據(jù)進(jìn)行分類分級(jí)、降密、脫敏、加密等操作,為車路云數(shù)據(jù)的共享應(yīng)用提供安全合規(guī)保障。

車路云一體化為城市交通管理的智能化升級(jí)提供了一條具有實(shí)踐意義的路徑。隨著技術(shù)的成熟,車路云網(wǎng)絡(luò)還將助力數(shù)字智能社會(huì)進(jìn)入到一個(gè)整合系統(tǒng),其將整合地面網(wǎng)絡(luò)、低空網(wǎng)絡(luò)、衛(wèi)星網(wǎng)絡(luò),形成空天地一體化的通感算網(wǎng)絡(luò)。最終,車路云網(wǎng)絡(luò)將發(fā)展成為智能交通、低空經(jīng)濟(jì)、具身智能、AI智能終端的底層實(shí)時(shí)數(shù)據(jù)網(wǎng)絡(luò),為智能設(shè)備的大規(guī)模運(yùn)行與自主交互協(xié)作提供重要支撐。

未來十年,所有行業(yè)都值得用人工智能重新做一遍。毫無疑問,人工智能仍將是2025年最受關(guān)注的技術(shù)。從自動(dòng)駕駛到車路云一體化、從交通基礎(chǔ)設(shè)施智能化建設(shè)到城市交通智能化管理,人工智能將越來越深地與交通領(lǐng)域進(jìn)行融合,并拓展出更多超乎想象的全新應(yīng)用場(chǎng)景,在為人們帶來更智能、便捷出行方式的同時(shí),也重塑著智能交通的未來。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

端到端、世界模型、車路云……誰將成為2025年“AI+交通”最熱詞?

變化,是唯一的不變。

文|極智GeeTech  

1942年,科幻小說家艾薩克·阿西莫夫(Isaac Asimov)在他的短篇小說《轉(zhuǎn)圈圈》(Runaround)中第一次明確提出了“機(jī)器人三定律”,這一定律也被稱為“現(xiàn)代人工智能技術(shù)的基石”。

阿西莫夫可能沒有完全預(yù)見到,八十年后的世界會(huì)多么接近他的科幻夢(mèng)想。

如今,人們生活在一個(gè)由人工智能滲透的世界里,這個(gè)世界在許多方面已超越阿西莫夫的想象。2024年,我們見證了一系列人工智能技術(shù)的創(chuàng)新與涌現(xiàn)。從AI視頻生成模型Sora到GPT-4o,一系列生成式人工智能新技術(shù)相繼問世、更新迭代,讓人感覺到似乎“未來已來”。

這一年,大模型、端到端、世界模型、車路云等已成為交通智能化領(lǐng)域最具革命性的技術(shù)應(yīng)用,不僅提升了駕駛體驗(yàn),還為城市交通的安全性、效率和可持續(xù)性帶來新的可能。

展望2025年,隨著人工智能與交通的進(jìn)一步深度融合,哪些技術(shù)領(lǐng)域充滿機(jī)遇?誰將引領(lǐng)新一年的行業(yè)發(fā)展?

BEV+OCC感知能力困局待解

對(duì)照著自動(dòng)駕駛領(lǐng)域這幾年的行業(yè)熱詞按圖索驥,可以把握自動(dòng)駕駛算法模型的發(fā)展脈絡(luò)。在特斯拉的帶動(dòng)下,自2021年至今,自動(dòng)駕駛行業(yè)這幾年的動(dòng)態(tài)熱詞依次為:BEV+Transformer、OCC占用網(wǎng)絡(luò)、無圖NOA、端到端。

BEV(鳥瞰圖)網(wǎng)絡(luò)通過矢量化的鳥瞰視角檢測(cè)白名單障礙物,OCC通過體素化的占用網(wǎng)絡(luò)預(yù)測(cè)3D空間的占位情況,實(shí)現(xiàn)對(duì)通用障礙物的感知,到無圖NOA的階段,自動(dòng)駕駛算法可以通過車道網(wǎng)絡(luò)實(shí)時(shí)建圖,構(gòu)建道路拓?fù)洹?/p>

再到今年大火的端到端,一方面,由于消除了傳統(tǒng)分模塊方案中各種小模型的冗余,計(jì)算資源得以集約化使用,神經(jīng)網(wǎng)絡(luò)的參數(shù)量或規(guī)模得以進(jìn)一步提升;另一方面,無論是分段式端到端還是一體式端到端,感知到?jīng)Q策之間的傳輸帶寬增加,信息損失減少,進(jìn)一步增強(qiáng)了系統(tǒng)的感知能力。

對(duì)于駕駛而言,感知交通環(huán)境信息越全面、越及時(shí),駕駛的安全性也就相對(duì)越高。因此,自動(dòng)駕駛系統(tǒng)對(duì)感知能力的需求是沒有上限的。

BEV網(wǎng)絡(luò)固然可以檢測(cè)白名單障礙物,但能檢測(cè)到1000多種物體基本上就是目前BEV網(wǎng)絡(luò)的感知上限。OCC占用網(wǎng)絡(luò)可以檢測(cè)通用障礙物,但OCC算法的運(yùn)算量跟隨網(wǎng)格的大小成倍變化,網(wǎng)格大小縮減一倍,OCC算法的運(yùn)算量將增加8倍,受限于算力和實(shí)時(shí)性,OCC網(wǎng)格的大小一般只能做到10厘米左右,這就意味著它很難檢測(cè)微小物體。在很多情況下,10公分大的物體足以造成交通事故了。

不僅如此,那些和駕駛安全、效率、舒適性密切相關(guān)的天氣、光照、雨霧等復(fù)雜語義,也是目前的BEV+OCC所解決不了的,而光照和天氣恰恰是可以影響自動(dòng)駕駛車輛行駛的關(guān)鍵要素。

數(shù)據(jù)正在成為端到端最大瓶頸

相較于分模塊的自動(dòng)駕駛方案,端到端方案主要解決了兩個(gè)問題。首先,從人工邏輯代碼到數(shù)據(jù)驅(qū)動(dòng),人工智能真正擺脫了“人工”,從此可以使用海量的數(shù)據(jù)迭代模型的性能;其次,通過自動(dòng)抽取信息,減少信息損失,可以充分利用數(shù)據(jù)中的信息。

在過去幾年的時(shí)間里,隨著Transformer+BEV+OCC的問世,分立級(jí)聯(lián)的感知模塊已經(jīng)慢慢完成了到端到端感知的切換,自2023年下半年以來這波端到端狂潮引發(fā)的“從人工邏輯代碼到數(shù)據(jù)驅(qū)動(dòng)”的轉(zhuǎn)變,其實(shí)主要體現(xiàn)在決策和規(guī)劃層面。

決策和規(guī)劃從一板一眼的手工編寫規(guī)則進(jìn)化到基于神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)直覺,這種AI化和端到端化使得可以通過海量數(shù)據(jù)不間斷訓(xùn)練優(yōu)化駕駛策略,復(fù)現(xiàn)擬人且絲滑的老司機(jī)腳法。決策和規(guī)劃的進(jìn)步是巨大的,相比之下,感知能力的進(jìn)步并不大。

端到端最核心的一點(diǎn)在于將自動(dòng)駕駛算法進(jìn)行了全面的AI化,轉(zhuǎn)向了完全的數(shù)據(jù)驅(qū)動(dòng),但這意味著需要更加海量的數(shù)據(jù)進(jìn)行模型的訓(xùn)練。

但對(duì)于到底需要多少數(shù)據(jù)才能訓(xùn)練出一個(gè)完美的自動(dòng)駕駛模型,業(yè)界并沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。之前有報(bào)道稱,特斯拉2024年初的視頻訓(xùn)練片段數(shù)量將近3000萬個(gè)。按照每個(gè)視頻片段30秒、30FPS的幀率、8個(gè)攝像頭計(jì)算,訓(xùn)練圖片數(shù)量高達(dá)220億張。

此外,這種規(guī)模的訓(xùn)練數(shù)據(jù)訓(xùn)練出來的自動(dòng)駕駛系統(tǒng)的等級(jí)仍未達(dá)到L3,自動(dòng)駕駛系統(tǒng)能力每提高一個(gè)等級(jí),需要的訓(xùn)練數(shù)據(jù)量至少會(huì)提升一個(gè)數(shù)量級(jí),也就是說,要達(dá)到L4,至少需要訓(xùn)練幾億個(gè)視頻片段。

端到端雖然強(qiáng)化了數(shù)據(jù)的作用,但大模型的引入?yún)s增加了龐大的數(shù)據(jù)標(biāo)注需求。在基于語言模型的自動(dòng)駕駛大模型中,其輸入是當(dāng)前駕駛場(chǎng)景的圖片,其輸出是各類交通參與者、道路拓?fù)?、交通信?hào)標(biāo)識(shí)的語義信息,這種模型不具備自回歸特性,進(jìn)行有監(jiān)督學(xué)習(xí),其訓(xùn)練需要海量的數(shù)據(jù)標(biāo)注工作。

這引發(fā)了一個(gè)新的問題:如果端到端自動(dòng)駕駛模型的訓(xùn)練還需要繼續(xù)打標(biāo)簽,在源源不斷產(chǎn)生的海量數(shù)據(jù)面前,還如何保證高效訓(xùn)練?這也是一直以來影響端到端進(jìn)一步發(fā)展的最大阻礙。

世界模型實(shí)現(xiàn)從感知到認(rèn)知的躍遷

無論是BEV檢測(cè)的白名單障礙物還是OCC占用網(wǎng)絡(luò)檢測(cè)的通用障礙物,從本質(zhì)上來說,都屬于基于判別式AI實(shí)現(xiàn)的對(duì)分立物體的單獨(dú)感知。

生成式AI大模型具備的超強(qiáng)理解能力使得視覺語言模型、大語言模型、世界模型可以建立對(duì)當(dāng)下場(chǎng)景的整體認(rèn)知,實(shí)現(xiàn)從感知到認(rèn)知的階躍。

舉例來說,BEV可以檢測(cè)到一個(gè)行人,大模型可以通過意圖理解判斷出這是一個(gè)要橫穿馬路的行人。BEV網(wǎng)絡(luò)可以檢測(cè)到前方的一個(gè)車輛,大模型可以更進(jìn)一步,通過長時(shí)序信息判斷出這是一個(gè)即將減速的車輛。

也就是說,在基于判別式AI的物體識(shí)別之外,生成式AI的意圖理解和長時(shí)序理解能力使其可以建立對(duì)整體駕駛環(huán)境的理解,更加貼近人類駕駛的知識(shí)邏輯。

自動(dòng)駕駛真正的挑戰(zhàn)并不在于能否檢測(cè)(感知)出各個(gè)獨(dú)立的物體,而是要準(zhǔn)確判斷(認(rèn)知)物體的意圖,根據(jù)車輛、行人微妙多變的姿態(tài)做出準(zhǔn)確的博弈和決策,只有建立了這樣復(fù)雜的語義理解和場(chǎng)景理解能力,才能像老司機(jī)那樣游刃有余地駕馭各種路況。而從部分到整體,從分立到連續(xù),從感知到認(rèn)知,正是大模型給傳統(tǒng)自動(dòng)駕駛感知技術(shù)棧帶來的重大轉(zhuǎn)變。

世界模型的引入標(biāo)志著自動(dòng)駕駛向數(shù)據(jù)驅(qū)動(dòng)智能的關(guān)鍵轉(zhuǎn)變,在這種智能中,預(yù)測(cè)和模擬未來情景的能力成為安全和效率的基石。

數(shù)據(jù)稀缺性問題,特別是在如數(shù)據(jù)標(biāo)注等專業(yè)任務(wù)中,突顯了世界模型的創(chuàng)新性和必要性。世界模型的訓(xùn)練數(shù)據(jù)是視頻序列,輸入是當(dāng)前時(shí)刻視頻,輸出是下一時(shí)刻視頻,可以像語言模型拿自帶標(biāo)簽信息的文字序列那樣進(jìn)行無監(jiān)督訓(xùn)練,不再需要數(shù)據(jù)標(biāo)注,這也就解決了傳統(tǒng)端到端模型訓(xùn)練需要精確標(biāo)注海量視頻數(shù)據(jù)的巨大難題。

同時(shí),通過從歷史數(shù)據(jù)中生成預(yù)測(cè)情景,世界模型不僅規(guī)避了數(shù)據(jù)收集和標(biāo)注帶來的限制,還增強(qiáng)了在模擬環(huán)境中訓(xùn)練自主系統(tǒng)的能力,這些環(huán)境可以反映甚至超越現(xiàn)實(shí)世界條件的復(fù)雜性。

這種方法預(yù)示著一個(gè)新時(shí)代的到來,在這個(gè)時(shí)代,自動(dòng)駕駛汽車具備反映某種直覺的預(yù)測(cè)能力,使它們能夠以前所未有的復(fù)雜程度響應(yīng)各類交通環(huán)境。

世界模型可以通過模擬和預(yù)測(cè)其他車輛、行人和動(dòng)態(tài)環(huán)境變化,從而幫助自主系統(tǒng)做出更安全、更高效的駕駛決策。例如,世界模型可以預(yù)測(cè)交通流量、路況變化以及潛在的風(fēng)險(xiǎn)因素,使自動(dòng)駕駛車輛能夠提前做出反應(yīng),避免事故和優(yōu)化行駛路徑。

盡管世界模型已經(jīng)表現(xiàn)出巨大的技術(shù)潛力,但其發(fā)展和應(yīng)用仍面臨挑戰(zhàn)。

首先,是數(shù)據(jù)的多樣性和質(zhì)量。世界模型依賴大量高質(zhì)量的數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試。然而,獲取和處理這些數(shù)據(jù)往往需要耗費(fèi)大量時(shí)間和資源。如何確保模型從多樣化和高質(zhì)量的數(shù)據(jù)中學(xué)習(xí),是下一階段世界模型在發(fā)展過程中迫切需要解決的問題。

其次,巨量的計(jì)算資源需求。訓(xùn)練和運(yùn)行世界模型需要大量的計(jì)算資源,特別是在處理高維數(shù)據(jù)和復(fù)雜場(chǎng)景時(shí)。

第三,模型的可解釋性。世界模型的復(fù)雜性使其決策過程難以解釋和理解,這將在醫(yī)療診斷、自動(dòng)駕駛等應(yīng)用場(chǎng)景中可能帶來潛在風(fēng)險(xiǎn)。

車路云,一個(gè)正在發(fā)生的潮流

如果說以上自動(dòng)駕駛技術(shù)都是“舶來品”,那么車路云一體化則是一個(gè)帶有鮮明“中國智慧”的技術(shù)方案。

2024年,是車路云一體化全面落地的里程碑年份。面對(duì)汽車智能化、網(wǎng)聯(lián)化的大勢(shì)所趨,中國率先提出車路云一體化與智能網(wǎng)聯(lián)汽車融合發(fā)展的新路徑,并發(fā)揮中國在統(tǒng)籌規(guī)劃、基礎(chǔ)設(shè)施建設(shè)、信息通信技術(shù)等方面的優(yōu)勢(shì),積極開展試點(diǎn)。

1月,工業(yè)和信息化部、公安部、交通運(yùn)輸部等五部門聯(lián)合印發(fā)《關(guān)于開展智能網(wǎng)聯(lián)汽車“車路云一體化”應(yīng)用試點(diǎn)的通知》,這是“車路云一體化”首次被寫入國家政策文件。7月,五部門正式對(duì)外公布《關(guān)于智能網(wǎng)聯(lián)汽車“車路云一體化”應(yīng)用試點(diǎn)城市名單的通知》,共計(jì)20個(gè)城市進(jìn)入試點(diǎn),從南到北、由西至東覆蓋全國。

與單一技術(shù)最大限度挖掘自身潛力不同,車路云一體化更多體現(xiàn)的是一種“眾智”,其通過集成通信基站、衛(wèi)星通信和定位、各類傳感器、云控平臺(tái)等基礎(chǔ)設(shè)施,形成一個(gè)信息共享、高效協(xié)同的車路云網(wǎng)絡(luò),為普通汽車、智能汽車、機(jī)器人、無人機(jī)等所有智能設(shè)備提供系統(tǒng)級(jí)的實(shí)時(shí)數(shù)據(jù)服務(wù),同時(shí)能夠?qū)?shí)時(shí)數(shù)據(jù)信息在云平臺(tái)進(jìn)行海量交互與智能分析,在系統(tǒng)層面解決全局安全、全局效率與全局博弈問題。

站在系統(tǒng)發(fā)展角度看,自動(dòng)駕駛追求越來越極致的智能化,而車路云一體化則追求的是極致的系統(tǒng)智能。車路云網(wǎng)絡(luò)讓車輛不再是孤立的智能體,而是融入到一個(gè)更大范圍的智能交通生態(tài)系統(tǒng)中。

道路上布設(shè)的智能路側(cè)設(shè)施如AI數(shù)字道路基站、V2X通信設(shè)備能夠?qū)崟r(shí)監(jiān)測(cè)路況,通過多源數(shù)據(jù)融合技術(shù),將不同類型、不同來源的數(shù)據(jù)進(jìn)行有機(jī)整合,從而為后續(xù)的數(shù)據(jù)分析提供更豐富的素材。

根據(jù)車百智庫研究報(bào)告顯示,一輛L4級(jí)別自動(dòng)駕駛汽車,每日通過車內(nèi)外傳感器采集的行駛數(shù)據(jù)、環(huán)境數(shù)據(jù)和行為數(shù)據(jù)等,已達(dá)到10TB量級(jí),是傳統(tǒng)汽車的5-10倍。其預(yù)計(jì),在路上行駛的智能汽車每年上傳到云端的數(shù)據(jù)超過7萬PB。

在收集到海量的交通數(shù)據(jù)之后,云端利用大數(shù)據(jù)和AI算法,對(duì)數(shù)據(jù)進(jìn)行分析與挖掘,從中提取有價(jià)值的信息。例如,通過對(duì)交通流量進(jìn)行數(shù)據(jù)分析,交管部門可以根據(jù)實(shí)時(shí)交通流和道路情況智能調(diào)整配時(shí)方案,提高道路通行效率。同時(shí),車輛也能接收到車路云網(wǎng)絡(luò)的信息,提前了解道路上的障礙和危險(xiǎn),從而采取相應(yīng)措施確保行車安全。

在數(shù)據(jù)分發(fā)與共享過程中,保障數(shù)據(jù)的安全性至關(guān)重要。智能車輛所采集的數(shù)據(jù)涵蓋了多種傳感器類型和數(shù)據(jù)源,通過這些數(shù)據(jù)不僅能夠高精度地全面掌握城市各交通要道的狀況,其中還可能會(huì)牽扯到重要區(qū)域的地理信息、人員流量、車輛流量等敏感數(shù)據(jù),以及臉部識(shí)別、聲紋、動(dòng)作等個(gè)人信息,這些數(shù)據(jù)一旦被泄露或被非法調(diào)用和共享,不僅會(huì)侵犯個(gè)人隱私,還可能會(huì)危及到國家安全。因此,在數(shù)據(jù)采集后,要根據(jù)國家相關(guān)法律法規(guī),對(duì)數(shù)據(jù)進(jìn)行分類分級(jí)、降密、脫敏、加密等操作,為車路云數(shù)據(jù)的共享應(yīng)用提供安全合規(guī)保障。

車路云一體化為城市交通管理的智能化升級(jí)提供了一條具有實(shí)踐意義的路徑。隨著技術(shù)的成熟,車路云網(wǎng)絡(luò)還將助力數(shù)字智能社會(huì)進(jìn)入到一個(gè)整合系統(tǒng),其將整合地面網(wǎng)絡(luò)、低空網(wǎng)絡(luò)、衛(wèi)星網(wǎng)絡(luò),形成空天地一體化的通感算網(wǎng)絡(luò)。最終,車路云網(wǎng)絡(luò)將發(fā)展成為智能交通、低空經(jīng)濟(jì)、具身智能、AI智能終端的底層實(shí)時(shí)數(shù)據(jù)網(wǎng)絡(luò),為智能設(shè)備的大規(guī)模運(yùn)行與自主交互協(xié)作提供重要支撐。

未來十年,所有行業(yè)都值得用人工智能重新做一遍。毫無疑問,人工智能仍將是2025年最受關(guān)注的技術(shù)。從自動(dòng)駕駛到車路云一體化、從交通基礎(chǔ)設(shè)施智能化建設(shè)到城市交通智能化管理,人工智能將越來越深地與交通領(lǐng)域進(jìn)行融合,并拓展出更多超乎想象的全新應(yīng)用場(chǎng)景,在為人們帶來更智能、便捷出行方式的同時(shí),也重塑著智能交通的未來。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。