文|數(shù)智前線 周路平 趙艷秋
編輯|?;?/p>
不久前,NVIDIA(英偉達(dá))發(fā)布了一個(gè)面向3D建模的生成式AI服務(wù),引起了業(yè)內(nèi)的廣泛矚目。如果說(shuō)之前的生成式AI更多是在生成文字、圖片、視頻等二維世界的內(nèi)容。那么,這次NVIDIA正在通過(guò)生成式AI去幫助企業(yè)構(gòu)建3D資產(chǎn),加速數(shù)字孿生和仿真產(chǎn)業(yè)的發(fā)展,同時(shí)也加速AI在物理世界的應(yīng)用落地。
01 “CUDA原生”瞄準(zhǔn)了工業(yè)
春江水暖鴨先知。作為全球加速計(jì)算的領(lǐng)導(dǎo)者,NVIDIA的動(dòng)作正在透露出一些新的風(fēng)向。
NVIDIA創(chuàng)始人兼CEO黃仁勛,在2024年SIGGRAPH上的兩場(chǎng)圍爐談話中,將其對(duì)AI的最新洞察,放在了生成式AI和加速計(jì)算,如何通過(guò)可視化,來(lái)改變制造業(yè)等行業(yè)上。NVIDIA也在會(huì)議期間推出了一套全新的NIM微服務(wù)。
SIGGRAPH大會(huì)是討論計(jì)算機(jī)圖形學(xué)最新創(chuàng)新的場(chǎng)所。NVIDIA發(fā)布了適用于OpenUSD、幾何體、物理學(xué)、材質(zhì)等的生成式AI模型與NIM微服務(wù)。OpenUSD是三維場(chǎng)景內(nèi)部數(shù)據(jù)交換的開(kāi)源軟件,已逐漸成為三維視覺(jué)、建筑、設(shè)計(jì)、制造等眾多行業(yè)的標(biāo)準(zhǔn)。
借助這些模型和服務(wù),開(kāi)發(fā)者能加速制造業(yè)、汽車(chē)、機(jī)器人等行業(yè)應(yīng)用的開(kāi)發(fā)。
在兩場(chǎng)圍爐談話中,黃仁勛探討了構(gòu)建數(shù)字孿生、虛擬世界的重要性。他說(shuō),行業(yè)通過(guò)構(gòu)建城市規(guī)模的大規(guī)模數(shù)字孿生,來(lái)提高效率并降低成本。“比如,在部署到下一代人形機(jī)器人之前,AI可以在這種虛擬世界中進(jìn)行訓(xùn)練?!?/p>
為什么黃仁勛會(huì)重點(diǎn)討論工業(yè)可視化、虛擬世界或數(shù)字孿生?NVIDIA又為何在此時(shí)在CUDA生態(tài)中,推出全新的NIM微服務(wù)?
圖源:NVIDIA官網(wǎng)
就如NVIDIA Omniverse與仿真技術(shù)副總裁Rev Lebaredian所表示的——重工業(yè)的生成式AI潮已經(jīng)到來(lái)。數(shù)智前線也獲悉,生成式AI正在從一些簡(jiǎn)單場(chǎng)景,走入復(fù)雜的生產(chǎn)環(huán)節(jié)。而上述技術(shù)生態(tài),可加速這一進(jìn)程。
“直到最近,數(shù)字世界的主要用戶還是創(chuàng)意行業(yè);而現(xiàn)在,借助NVIDIA NIM微服務(wù)為OpenUSD帶來(lái)的增強(qiáng)功能和可訪問(wèn)性,各個(gè)行業(yè)都可以創(chuàng)建基于物理學(xué)的虛擬世界和數(shù)字孿生,為這次新一輪AI技術(shù)熱潮做好準(zhǔn)備?!盧ev Lebaredian說(shuō)。
在汽車(chē)行業(yè),國(guó)內(nèi)車(chē)企都在“卷”數(shù)字孿生。“最近特斯拉即將發(fā)布FSD12.5版本,也在積極推動(dòng)FSD在中國(guó)的落地?!币患抑袊?guó)大型車(chē)企人工智能人士告訴數(shù)智前線,“特斯拉把仿真作為戰(zhàn)略級(jí)目標(biāo),我們也在做元宇宙,解決自動(dòng)駕駛數(shù)據(jù)閉環(huán)問(wèn)題?!贝饲?,車(chē)企采集“鬼探頭”數(shù)據(jù)難度大、成本高?,F(xiàn)在,車(chē)企可以在元宇宙仿真環(huán)境中,解決長(zhǎng)尾場(chǎng)景的訓(xùn)練。
在機(jī)器人行業(yè),一家電力巡檢機(jī)器人公司正在通過(guò)仿真環(huán)境訓(xùn)練AI,讓機(jī)器人能實(shí)時(shí)感知到電廠內(nèi)復(fù)雜的環(huán)境和物理空間,規(guī)劃移動(dòng)路線,并可以查看沿路數(shù)千個(gè)在不同設(shè)備上的表計(jì)。
建筑設(shè)計(jì)是一項(xiàng)復(fù)雜耗時(shí)的工作,建筑設(shè)計(jì)中的3D模型是個(gè)必不可少的交付件。而對(duì)于一些復(fù)雜幾何形狀和異形結(jié)構(gòu),3D模型的重建工作難度較大?,F(xiàn)在,一些設(shè)計(jì)企業(yè)與AI企業(yè)一起,嘗試只需要一些圖片、草圖和文字,就可以生成模型。還可以賦予建筑設(shè)計(jì)不同的材質(zhì),來(lái)完善設(shè)計(jì)。
在鋼鐵行業(yè),金相分析是通過(guò)顯微鏡查看材料切片內(nèi)部的缺陷和結(jié)構(gòu)等的一種方法,來(lái)了解基礎(chǔ)材料的整體性能。傳統(tǒng)人工的效率較低,還要嚴(yán)重依賴(lài)人的經(jīng)驗(yàn)?,F(xiàn)在,不少鋼鐵企業(yè)的一個(gè)共同的訴求是,期望利用以往的知識(shí)庫(kù),通過(guò)訓(xùn)練專(zhuān)業(yè)的AI,來(lái)對(duì)材料進(jìn)行全方位的解析。
而NVIDIA通過(guò)全新的NIM微服務(wù),讓?xiě)?yīng)用企業(yè)不用從零開(kāi)始,直接去調(diào)用服務(wù),再結(jié)合自己的數(shù)據(jù),快速實(shí)現(xiàn)一個(gè)應(yīng)用。因此,一些企業(yè)將此形容為“CUDA原生”。
伴隨生成式AI從一些邊緣場(chǎng)景到更深層次場(chǎng)景的落地,黃仁勛稱(chēng),“每個(gè)人都將擁有AI助手”。同時(shí),AI與圖像技術(shù)等的融合正在深化,“幾乎每個(gè)行業(yè)都將受到這項(xiàng)技術(shù)的影響,無(wú)論是科學(xué)計(jì)算以更少的能源更好地預(yù)測(cè)天氣,還是與創(chuàng)作者合作生成圖像,或?yàn)楣I(yè)可視化創(chuàng)建虛擬場(chǎng)景,”黃仁勛表示,“生成式AI還將徹底改變機(jī)器人自動(dòng)駕駛汽車(chē)領(lǐng)域?!?/p>
02 新NIM微服務(wù),帶來(lái)哪些想象
上述這些行業(yè)應(yīng)用背后,都依賴(lài)3D建模和仿真技術(shù)的應(yīng)用。
而3D內(nèi)容和場(chǎng)景的構(gòu)建在過(guò)去一直是令人頭疼的事情,它涉及的鏈條和流程很復(fù)雜,比如建模、著色、動(dòng)畫(huà)、照明、渲染等。
在過(guò)去數(shù)十年,動(dòng)畫(huà)、視覺(jué)特效和游戲工作室一直在努力提升流程中各種工具之間的互操作性,但收效甚微。將數(shù)據(jù)從一個(gè)位置遷移到另一個(gè)位置非常棘手,因此工作室構(gòu)建了復(fù)雜的工作流程來(lái)管理數(shù)據(jù)互操作性。
而且,除了系統(tǒng)和工具的割裂,傳統(tǒng)的3D制作流程是線性協(xié)作,涉及多部門(mén)多人員的格式轉(zhuǎn)換和修改,費(fèi)時(shí)費(fèi)力。
OpenUSD是一個(gè)開(kāi)源的通用3D數(shù)據(jù)交換框架,它在2023年由NVIDIA、皮克斯、蘋(píng)果等廠商牽頭成立,可通過(guò)軟件工具與數(shù)據(jù)類(lèi)型之間的互通構(gòu)建虛擬世界,具有極高的互操作性和兼容性,解決創(chuàng)建三維場(chǎng)景時(shí)工作流和復(fù)雜性方面的多項(xiàng)挑戰(zhàn)。
OpenUSD也是NVIDIA Omniverse平臺(tái)的基礎(chǔ)。在與《連線》雜志資深撰稿人的對(duì)談中,黃仁勛曾如此表示:OpenUSD是第一種幾乎將所有工具的多模態(tài)表達(dá)融合在一起的格式。理想情況下,隨著時(shí)間的推移,人們可以將幾乎任何格式引入其中,讓每個(gè)人都能進(jìn)行協(xié)作并使內(nèi)容永遠(yuǎn)留存。而生成式AI,一定能夠助力Omniverse產(chǎn)生更好的仿真效果。
而NVIDIA這次推出的針對(duì)OpenUSD開(kāi)發(fā)的NIM微服務(wù),也是全球首個(gè)用于OpenUSD開(kāi)發(fā)的生成式AI模型。它將生成式AI的能力以NIM微服務(wù)的形式,整合進(jìn)USD工作流中,大幅降低了用戶運(yùn)用OpenUSD的門(mén)檻。同時(shí),NVIDIA也發(fā)布了多款適用于機(jī)器人數(shù)據(jù)格式和Apple Vision Pro流式傳輸?shù)娜耈SD連接器。
圖源:NVIDIA官網(wǎng)
目前,已經(jīng)發(fā)布的NIM微服務(wù)有三項(xiàng):一是USD Code NIM微服務(wù),可以回答常識(shí)性O(shè)penUSD問(wèn)題,并基于文本提示自動(dòng)生成Python代碼。
二是USD Search NIM微服務(wù),使開(kāi)發(fā)者能夠使用自然語(yǔ)言或圖像輸入,在海量OpenUSD、3D和圖像數(shù)據(jù)庫(kù)中進(jìn)行搜索,大大提高企業(yè)流程化檢索并處理材料的速度。
三是USD Validate NIM微服務(wù),可以檢查上傳文件與OpenUSD發(fā)布版本的兼容性,并生成完全由NVIDIA Omniverse Cloud API驅(qū)動(dòng)的RTX渲染路徑追蹤圖像。
除了NVIDIA提供的原生NIM微服務(wù),生態(tài)伙伴也正在基于這些微服務(wù),創(chuàng)建了多個(gè)熱門(mén)的AI模型,提供給用戶進(jìn)行推理優(yōu)化。
全球知名的創(chuàng)意內(nèi)容平臺(tái)Shutterstock基于NVIDIA最新版本的Edify視覺(jué)生成模型,推出了文本轉(zhuǎn)3D的全新服務(wù),包括制作3D原型或填充虛擬環(huán)境等。
比如為虛擬場(chǎng)景創(chuàng)建能夠準(zhǔn)確反射的照明是一項(xiàng)復(fù)雜的任務(wù)。以前,創(chuàng)作者需要操作昂貴的360度攝像機(jī)裝備,親身到拍攝現(xiàn)場(chǎng)從頭開(kāi)始創(chuàng)建背景,或者在龐大的資料庫(kù)中搜索近似的內(nèi)容。
但現(xiàn)在,通過(guò)3D生成服務(wù),用戶只需用文字或圖片描述他們所需要的具體環(huán)境,就能得到最大分辨率為16K的高動(dòng)態(tài)范圍全景圖像 (360 HDRi)。而且,這些場(chǎng)景和組件可以快速切換,比如讓跑車(chē)出現(xiàn)在沙漠、熱帶海灘或者蜿蜒的山路上。
除了創(chuàng)建照明,創(chuàng)作者也可以快速添加各種渲染材質(zhì),如混凝土、木材或皮革等,從而構(gòu)建自己的3D資產(chǎn)。而且,在AI幫助下生成的3D資產(chǎn)也可以隨時(shí)進(jìn)行編輯并以各種流行的文件格式提供。
而NVIDIA的Edify AI模型,也在幫助Getty Images讓藝術(shù)家實(shí)現(xiàn)任意控制圖像的構(gòu)圖和風(fēng)格。比如在一張完美的珊瑚礁照片上漂浮一個(gè)紅色沙灘球。而且,創(chuàng)作者也可以用企業(yè)的數(shù)據(jù),在基礎(chǔ)模型上進(jìn)行微調(diào),生成符合特定品牌創(chuàng)意風(fēng)格的圖像。
這些模型微服務(wù)和工具正在極大地加速品牌方在3D資產(chǎn)上的創(chuàng)建,將使數(shù)字孿生的開(kāi)發(fā)變得更加普及和便捷。
03 先發(fā)企業(yè)已開(kāi)始嘗試
正是隨著3D內(nèi)容和資產(chǎn)創(chuàng)建變得更加便捷和準(zhǔn)確,工業(yè)、自動(dòng)駕駛、工程、機(jī)器人等行業(yè)正在享受到生成式AI帶來(lái)的技術(shù)紅利。尤其在制造業(yè)和廣告創(chuàng)意行業(yè),一批先發(fā)企業(yè)正在積極通過(guò)NVIDIA Omniverse平臺(tái)加速數(shù)字孿生和仿真的落地應(yīng)用。
可口可樂(lè)是首個(gè)將Omniverse和NIM微服務(wù)所提供的生成式AI用于營(yíng)銷(xiāo)場(chǎng)景的品牌。在其演示的一段視頻中,只需要在系統(tǒng)中用自然語(yǔ)言輸入“給我建一張桌子,上面放著塔可和莎莎醬,沐浴在晨光中”。
很快,USD Search NIM微服務(wù)能在龐大的3D資產(chǎn)庫(kù)中搜索出對(duì)應(yīng)的3D資產(chǎn),通過(guò)API的方式快速調(diào)用,而USD Code NIM則可以將這些模型組合成場(chǎng)景,開(kāi)發(fā)人員輸入提示就可以獲得用于創(chuàng)造新穎3D世界的Python代碼,大大增強(qiáng)了他們的創(chuàng)作能力??煽诳蓸?lè)通過(guò)生成式AI,可以在全球100多個(gè)市場(chǎng)定制個(gè)性化的形象,實(shí)現(xiàn)本地化營(yíng)銷(xiāo)。
圖源:NVIDIA官網(wǎng)
而作為可口可樂(lè)背后的廣告服務(wù)商,WPP專(zhuān)門(mén)推出了智能營(yíng)銷(xiāo)操作系統(tǒng)。該系統(tǒng)利用了Omniverse開(kāi)發(fā)平臺(tái)和OpenUSD,能夠非常精簡(jiǎn)且自動(dòng)化地實(shí)現(xiàn)多語(yǔ)言文本、圖像和視頻的創(chuàng)建,簡(jiǎn)化了廣告主和營(yíng)銷(xiāo)人員的內(nèi)容創(chuàng)建過(guò)程。通過(guò)生成式AI服務(wù)于客戶,WPP將一個(gè)個(gè)瘋狂的創(chuàng)意搬到了現(xiàn)實(shí)。
正如WPP首席技術(shù)官所言,“這些創(chuàng)新的美妙之處在于它與我們的工作方式高度兼容,并充分利用了開(kāi)放標(biāo)準(zhǔn)。這不僅加速了未來(lái)的工作,而且使我們能夠繼續(xù)鞏固和擴(kuò)展我們之前在OpenUSD等標(biāo)準(zhǔn)上的所有投資。通過(guò)使用NVIDIA NIM微服務(wù)與NVIDIA Omniverse,我們能夠以前所未有的速度與可口可樂(lè)公司等企業(yè)聯(lián)合推出創(chuàng)新的新生產(chǎn)工具?!?/p>
作為全球最大的消費(fèi)電子代工企業(yè),富士康專(zhuān)門(mén)為墨西哥的一家新工廠構(gòu)建了虛擬的數(shù)字孿生工廠,工程師可以在虛擬環(huán)境中定義流程和訓(xùn)練機(jī)器人,從而提高工廠的自動(dòng)化水平和生產(chǎn)效率,節(jié)約時(shí)間、成本和能源。
富士康在背后也用到了Omniverse平臺(tái)來(lái)構(gòu)建其數(shù)字孿生,將所有3D CAD元素整合到同一個(gè)虛擬工廠中,并在那里使用Omniverse和OpenUSD上開(kāi)發(fā)的可擴(kuò)展機(jī)器人仿真平臺(tái)NVIDIA Isaac Sim對(duì)機(jī)器人進(jìn)行訓(xùn)練,為其數(shù)字孿生帶來(lái)物理級(jí)精確和逼真的視覺(jué)呈現(xiàn)。
除了富士康,包括臺(tái)達(dá)電子、聯(lián)發(fā)科、和碩等電子制造企業(yè),都在使用NVIDIA AI和Omniverse構(gòu)建工廠數(shù)字孿生。
而小鵬汽車(chē)MPV車(chē)型小鵬X9在設(shè)計(jì)過(guò)程中則使用Omniverse平臺(tái),通過(guò)將車(chē)型開(kāi)發(fā)工作流引入虛擬世界,讓小鵬汽車(chē)在新車(chē)設(shè)計(jì)時(shí)規(guī)避傳統(tǒng)工作流存在的瓶頸。
比如,Omniverse平臺(tái)一方面擁有強(qiáng)大的互操作性,使得用于工業(yè)建模、渲染和3D特效的文件和數(shù)據(jù)不再需要繁復(fù)的轉(zhuǎn)換,加速了小鵬汽車(chē)設(shè)計(jì)團(tuán)隊(duì)之間的溝通協(xié)作;另一方面,小鵬汽車(chē)借助Omniverse的實(shí)時(shí)渲染與光線追蹤等功能,實(shí)現(xiàn)了汽車(chē)顏色和內(nèi)飾變化的即時(shí)可視化,讓虛擬效果更加真實(shí),幫助承接用戶需求,進(jìn)而改進(jìn)產(chǎn)品體驗(yàn)。
過(guò)去兩年,生成式AI的爆火讓外界的目光更多在一些ToC和協(xié)同辦公領(lǐng)域的應(yīng)用上,但現(xiàn)在,物理世界也將迎來(lái)一波新的爆發(fā)和機(jī)遇。