界面新聞記者 | 李如嘉
界面新聞編輯 | 文姝琪
4月25日-5月4日,2024(第十八屆)北京國際汽車展覽會在中國國際展覽中心舉行。商湯絕影在展會上首次向公眾展出了面向量產(chǎn)的真·端到端自動駕駛解決方案UniAD(Unified Autonomous Driving)的道路測試表現(xiàn),同時還帶來了以多模態(tài)場景大腦為核心的AI大模型座艙產(chǎn)品矩陣以及全新座艙3D交互演示。
2022年底,商湯及其聯(lián)合實驗室提出了行業(yè)首個感知決策一體化自動駕駛通用模型UniAD,并在次年榮獲2023年國際計算機視覺與模式識別會議(CVPR)最佳論文。
今年年初,特斯拉開始向部分用戶推送FSD V12版本的端到端自動駕駛方案,業(yè)內隨之出現(xiàn)了越來越多的“端到端”智駕方案。與大部分端到端方案采用由感知和決策兩個模型組成的“兩段式”架構不同,UniAD將感知、決策、規(guī)劃等模塊都整合到一個全棧Transformer端到端模型,實現(xiàn)了感知決策一體化。
搭載UniAD端到端自動駕駛解決方案的車輛不需要高精地圖,僅憑攝像頭的視覺感知就可以像人一樣觀察并理解外部環(huán)境,然后基于感知信息,UniAD能夠自己思考并自主解決各種高難度的城市復雜駕駛場景。
在北京車展的上車演示中,商湯絕影展示了在復雜場景下UniAD的處理能力:在上海臨港無標線鄉(xiāng)村窄路上,對向有車駛來,前方有行人在跑步,UniAD判斷出前方有足夠的空間進行操作,所以在確保安全的情況下,選擇快速向左繞過行人然后回到正常行駛路線完成會車。
商湯絕影是商湯集團旗下聚焦智能汽車業(yè)務的子公司,落戶在上海臨港。公司通過構建駕-艙-云三位一體的通用人工智能(AGI)技術架構,將人工智能技術與汽車產(chǎn)業(yè)進行融合。
目前,上海臨港新片區(qū)作為絕影自動駕駛研發(fā)的基地之一,向其提供了包括車路協(xié)同等方面的開放場景,幫助絕影推進產(chǎn)品的迭代和技術的演進。
今年的《政府工作報告》將“大力推進現(xiàn)代化產(chǎn)業(yè)體系建設,加快發(fā)展新質生產(chǎn)力”放在2024年政府工作任務的首位,提出要充分發(fā)揮創(chuàng)新的主導作用,同時強調“鞏固擴大智能網(wǎng)聯(lián)新能源汽車等產(chǎn)業(yè)領先優(yōu)勢”與“深化大數(shù)據(jù)、人工智能等研發(fā)應用,開展‘人工智能+’行動”。
商湯科技聯(lián)合創(chuàng)始人、首席科學家、絕影智能汽車事業(yè)群總裁王曉剛認為,AI大模型將助推新質生產(chǎn)力的發(fā)展,推進AI的規(guī)模化產(chǎn)業(yè)應用,特別是AI大模型與汽車產(chǎn)業(yè)的碰撞與融合。
“大模型給人類社會也包括汽車行業(yè)帶來的變化主要體現(xiàn)在兩個方面:一個是生產(chǎn)效率的提升,另外一個是人機交互體驗的質變。”王曉剛在接受界面新聞專訪時提到。
例如在智能座艙里,在開發(fā)例如駕駛員感知、乘員感知等各類AI功能的時候,包含識別打電話、疲勞分心等多個任務,以前每增加一個功能都需要投入大量的研發(fā)人員去開發(fā)。但隨著多模態(tài)大模型的出現(xiàn),對于新任務的泛化能力大大提升,無論是提取基于座艙里捕捉到的圖像視頻,或是問詢各種開放式的問題,一個模型就可以解決座艙里出現(xiàn)的多個智能化任務。
在人機交互體驗上,隨著多模態(tài)大模型的出現(xiàn),系統(tǒng)可以通過人的指令改變自動駕駛的行為。比如在高速路上開車的時候,如果覺得旁邊臨車道的大卡車有壓迫感,駕駛員就可以通過語音指令讓汽車和大卡車保持距離。
在輸出上也不僅限于能輸出駕駛的軌跡、規(guī)控,大模型還能夠以文字和語言的形式,解釋模型駕駛過程中做出的各種行為判斷。由此一來,自動駕駛系統(tǒng)就不再是一個黑盒子,將擁有更好的解釋性和人機交互的體驗。
“汽車某種意義上就像一個機器人,大模型能夠讓汽車變成一個更加通用的智能體,理解司機與乘客,提供更個性化的服務。”王曉剛說。
通用人工智能和大模型的進化離不開基礎設施的建設。隨著包括算力、數(shù)據(jù)規(guī)模的擴大,模型的能力才能夠持續(xù)突破技術邊界。
2018年,在上海市政府的支持下,商湯在臨港建立AIDC智算中心,目前還在進一步擴大規(guī)模。截至目前,商湯已經(jīng)有45000塊GPU,包括12000P的算力,為大模型的研發(fā)提供強大的支持。
除了推動集團內部的研發(fā),王曉剛表示商湯將來也會將這些大裝置基礎設施開放給主機廠及其他生態(tài)的合作伙伴,以共同推動通用人工智能、大模型的發(fā)展。
僅僅是硬件計算設備的堆砌,并不能將幾千塊甚至上萬塊的GPU進行有效連接。王曉剛向記者解釋,如果單純將這些硬件設備連接起來,會發(fā)現(xiàn)它只能提升訓練效率30%,因為不同的卡和機器之間要進行大量通信、數(shù)據(jù)的傳輸還有同步,這些都會大大降低使用效率。并且一萬塊卡里如果其中有一塊卡出現(xiàn)故障,那么整個系統(tǒng)也會頻繁死機。
因此,商湯開發(fā)了一整套軟硬件系統(tǒng),將整體效率從30%提升到90%,并讓整個機器系統(tǒng)可以長時間穩(wěn)定地運行,以順利開展大模型研發(fā)工作。
在數(shù)據(jù)方面,除了自身的數(shù)據(jù)積累,絕影也和主機廠展開了合作。針對車廠自身的海量數(shù)據(jù),絕影可以提供大模型訓練的工具、基礎設施,讓車廠對模型進行迭代。
截至2023年12月,商湯絕影已與超過30家國內外車企達成合作,覆蓋超90款車型,累計交付近200萬輛智能汽車。
除了智能駕駛,商湯日日新的大模型系列已被應用在智能座艙中。小米SU7就使用了商湯的大語言模型和多模態(tài)模型,以提升車輛的智能化體驗。目前還有十幾家車廠也在這方面和商湯有所合作,一系列的POC(概念驗證)和量產(chǎn)項目正在落地。
關于絕影的下一步計劃,王曉剛向界面新聞表示,在汽車智能化領域,一方面,絕影會繼續(xù)推動端到端自動駕駛技術的發(fā)展;另一方面也在積極地把多模態(tài)大模型應用到自動駕駛領域,希望能做到在不用手動操作的情況下,通過語言交互就能改變自動駕駛的行為。
在車艙里,絕影也會進一步開發(fā)基于大模型智能座艙的整體方案,完善座艙大腦。各種視覺、語音、自然語言等等也會被融入到一個多模態(tài)大模型中去完成各種功能。
另外,現(xiàn)在自動駕駛和智能座艙還是需要運行在不同的芯片和域控制器上,但隨著技術的不斷成熟,將來會完成艙駕的融合。這樣車內和車外各種傳感器的數(shù)據(jù)也能夠更好的打通,帶來更快的數(shù)據(jù)傳輸和更好的用戶體驗。由于絕影同時擁有智能駕駛和智能座艙兩個業(yè)務方向和產(chǎn)品線,所以在推動艙駕融合方面會更有優(yōu)勢。
在更遠的未來,王曉剛認為,很多在智能汽車里應用到的技術,也會被應用到機器人的領域里。所以今天汽車的智能化也為將來機器人的發(fā)展提供了基礎。