正在閱讀:

英偉達連甩20枚AI核彈,800億晶體管GPU、144核CPU來了

掃一掃下載界面新聞APP

英偉達連甩20枚AI核彈,800億晶體管GPU、144核CPU來了

時隔兩年,Hopper架構(gòu)登場!

文|芯東西  ZeR0

編輯|漠影

芯東西3月23日凌晨報道,今日,NVIDIA(英偉達)攜基于最新Hopper架構(gòu)的H100 GPU系列新品高調(diào)回歸!

英偉達創(chuàng)始人兼CEO黃仁勛依然穿著皮衣,不過這次他沒有出現(xiàn)在幾乎已成GTC大會“標(biāo)配”的廚房場景中,而是在一個更具科幻感的虛擬空間。

延續(xù)以往風(fēng)格,黃仁勛在主題演講中繼續(xù)秒天秒地秒空氣,公布多個“全球首款”。這次他帶來一系列堪稱“地表最強”的AI重磅新品,隨便一個精度的AI性能,都比上一代A100高出3~6倍。

雖然英偉達并購Arm的計劃剛剛告吹,但它的數(shù)據(jù)中心“三芯”總路線(GPU+DPU+CPU)依然不動搖——繼去年推出其首款數(shù)據(jù)中心CPU后,今天,英偉達又亮出一款基于Arm架構(gòu)的Grace CPU超級芯片。

此外,黃仁勛再次派出自己的虛擬數(shù)字人化身“玩偶老黃”Toy Jensen,并跟這個表情生動的玩偶進行了一番流暢的實時問答對話。

憑借押中圖形處理和人工智能(AI)兩大賽道,英偉達已經(jīng)成為全球半導(dǎo)體市值TOP1。截至文章發(fā)布時間,英偉達的市值超過6600億美元,比第二名臺積電足足多了近1100億美元。

下面就讓我們來看看本場GTC大會的完整干貨:

1、H100 GPU:采用臺積電4N工藝,擁有800億個晶體管,實現(xiàn)了首個GPU機密計算,相比A100,F(xiàn)P8性能提升6倍,F(xiàn)P16、TF32、FP64性能各提升3倍。

2、全新NVLink Switch系統(tǒng):高度可擴展,支持256塊H100 GPU互連。

3、融合加速器H100 CNX:耦合H100 GPU與ConnectX-7和以太網(wǎng)智能網(wǎng)卡,可為I/O密集型應(yīng)用提供更強勁的性能。

4、DGX H100:配備8塊H100 GPU,總計有6400億個晶體管,在全新的FP8精度下AI性能比上一代高6倍,可提供900GB/s的帶寬。

5、DGX SuperPOD:最多由32個DGX H100組成,AI算力可達1EFLOPS。

6、Eos超級計算機:全球運行速度最快的AI超級計算機,配備576臺DGX H100系統(tǒng),F(xiàn)P8算力達到18EFLOPS,PF64算力達到275PFLOPS。

7、Grace CPU超級芯片:由兩個CPU芯片組成,采用最新Armv9架構(gòu),擁有144個CPU核心和1TB/s的內(nèi)存帶寬,將于2023年上半年供貨。

8、為定制芯片集成開放NVLink:采用先進封裝技術(shù),與英偉達芯片上的PCIe Gen 5相比,能源效率高25倍,面積效率高90倍。英偉達還將支持通用小芯片互連傳輸通道UCIe標(biāo)準。

9、CUDA-X:60多個針對CUDA-X的一系列庫、工具和技術(shù)的更新。

10、Riva 2.0:對話式AI服務(wù)Riva全面發(fā)行,2.0版本支持識別7種語言,可將神經(jīng)文本轉(zhuǎn)換為不同性別發(fā)聲的語音。

11、Merlin 1.0:可幫助企業(yè)快速構(gòu)建、部署和擴展先進的AI推薦系統(tǒng)。

12、Sionna:一款用于6G通信研究的AI框架。

13、OVX與OVX SuperPod:面向工業(yè)數(shù)字孿生的數(shù)據(jù)中心級服務(wù)器和超級集群。

14、Spectrum-4:全球首個400Gbps端到端網(wǎng)絡(luò)平臺,交換吞吐量比前幾代產(chǎn)品高出4倍,達到51.2Tbps。

15、Omniverse Cloud:支持協(xié)作者們隨時隨地實現(xiàn)遠程實時協(xié)同工作。

16、DRIVE Hyperion 9:汽車參考設(shè)計,擁有14個攝像頭、9個雷達、3個激光雷達和20個超聲傳感器,總體傳感器數(shù)量是上一代的兩倍。

17、DRIVE Map:多模態(tài)地圖引擎,包含攝像頭、激光雷達和雷達的數(shù)據(jù),同時兼顧安全性。

18、Clara Holoscan MGX:可供醫(yī)療設(shè)備行業(yè)在邊緣開發(fā)和部署實時AI應(yīng)用的計算平臺,AI算力可達每秒254~610萬億次運算。

19、Isaac for AMR:提供自主移動機器人系統(tǒng)參考設(shè)計。

20、Jetson AGX Orin開發(fā)者套件:在邊緣實現(xiàn)服務(wù)器級的AI性能。

黃仁勛還介紹了英偉達創(chuàng)建的NVIDIA AI加速計劃,通過與AI生態(tài)系統(tǒng)中的開發(fā)者合作,開發(fā)工程化解決方案,以確保客戶放心部署。

01.H100 GPU:800億晶體管、六大創(chuàng)新

每次英偉達的GPU新架構(gòu)都會以一位科學(xué)家的名字來命名,這次同樣如此。

新Hopper架構(gòu)的命名取自美國計算機科學(xué)家格蕾絲·赫柏(Grace Hopper),她是耶魯大學(xué)第一位數(shù)學(xué)女博士、世界上第三位程序員、全球首個編譯器的發(fā)明者,也是第一個發(fā)現(xiàn)“bug”的人。

▲格蕾絲·赫柏正在教學(xué)COBOL編程語言

1945年9月9日,格蕾絲使用的Mark Ⅱ機出現(xiàn)故障,經(jīng)過近一天的排查,她找到了故障的原因:繼電器中有一只死掉的蛾子。后來,“bug”(小蟲)和“debug”(除蟲)這兩個詞匯就作為計算機領(lǐng)域的專用詞匯流傳至今。

基于Hopper架構(gòu)的一系列AI計算新品,被冠上各種“全球首款”。按行業(yè)慣例,但凡比較AI算力,必會拿英偉達最新旗艦GPU作為衡量標(biāo)準。

英偉達也不例外,先“碾壓”一下自己兩年前發(fā)布的上一代A100 GPU。

作為全球首款基于Hopper架構(gòu)的GPU,英偉達 H100接過為加速AI和高性能計算(HPC)扛旗的重任,F(xiàn)P64、TF32、FP16精度下AI性能都達到A100的3倍。

可以看到,NVIDIA越來越熱衷于走稀疏化路線。過去六年,英偉達相繼研發(fā)了使用FP32、FP16進行訓(xùn)練的技術(shù)。此次H100的性能介紹又出現(xiàn)了新的Tensor處理格式FP8,而FP8精度下的AI性能可達到4PFLOPS,約為A100 FP16的6倍。

從技術(shù)進展來看,H100有6項突破性創(chuàng)新:

1)先進芯片:H100采用臺積電4N工藝、臺積電CoWoS 2.5D封裝,有800億個晶體管(A100有540億個晶體管),搭載了HBM3顯存,可實現(xiàn)近5TB/s的外部互聯(lián)帶寬。

H100是首款支持PCIe 5.0的GPU,也是首款采用HBM3標(biāo)準的GPU,單個H100可支持40Tb/s的IO帶寬,實現(xiàn)3TB/s的顯存帶寬。黃仁勛說,20塊H100 GPU便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量。

2)新Transformer引擎:該引擎將新的Tensor Core與能使用FP8和FP16數(shù)字格式的軟件結(jié)合,動態(tài)處理Transformer網(wǎng)絡(luò)的各個層,在不影響準確性的情況下,可將Transformer模型的訓(xùn)練時間從數(shù)周縮短至幾天。

3)第二代安全多實例GPU:MIG技術(shù)支持將單個GPU分為7個更小且完全獨立的實例,以處理不同類型的作業(yè),為每個GPU實例提供安全的多租戶配置。H100能托管7個云租戶,而A100僅能托管1個,也就是將MIG的部分能力擴展了7倍。每個H100實例的性能相當(dāng)于兩個完整的英偉達云推理T4 GPU。

4)機密計算:H100是全球首款具有機密計算功能的GPU加速器,能保護AI模型和正在處理的客戶數(shù)據(jù),可以應(yīng)用在醫(yī)療健康和金融服務(wù)等隱私敏感型行業(yè)的聯(lián)邦學(xué)習(xí),以及共享云基礎(chǔ)設(shè)施。

5)第4代英偉達NVLink:為了加速大型AI模型,NVLink結(jié)合全新外接NVLink Switch,可將NVLink擴展為服務(wù)器間的互聯(lián)網(wǎng)絡(luò),最多連接多達256個H100 GPU,相較于上一代采用英偉達 HDR Quantum InfiniBand網(wǎng)絡(luò),帶寬高出9倍。

6)DPX指令:Hopper引入了一組名為DPX的新指令集,DPX可加速動態(tài)編程算法,解決路徑優(yōu)化、基因組學(xué)等算法優(yōu)化問題,與CPU和上一代GPU相比,其速度提升分別可達40倍和7倍。

總體來說,H100的這些技術(shù)優(yōu)化,將對跑深度推薦系統(tǒng)、大型AI語言模型、基因組學(xué)、復(fù)雜數(shù)字孿生、氣候科學(xué)等任務(wù)的效率提升非常明顯。

比如,用H100支持聊天機器人使用的monolithic Transformer語言模型Megatron 530B,吞吐量比上一代產(chǎn)品高出30倍,同時能滿足實時對話式AI所需的次秒級延遲。

再比如用H100訓(xùn)練包含3950億個參數(shù)的混合專家模型,訓(xùn)練速度可加速高達9倍,訓(xùn)練時間從幾周縮短到幾天。

H100將提供SXM和PCIe兩種規(guī)格,可滿足各種服務(wù)器設(shè)計需求。

其中H100 SXM提供4 GPU和8 GPU配置的HGX H100服務(wù)器主板;H100 PCIe通過NVLink連接兩塊GPU,相較PCIe 5.0可提供7倍以上的帶寬。PCIe規(guī)格便于集成到現(xiàn)有的數(shù)據(jù)中心基礎(chǔ)設(shè)施中。

這兩種規(guī)格的電力需求都大幅增長。H100 SXM版的散熱設(shè)計功耗(TDP)達到700W,比A100的400W高出75%。據(jù)黃仁勛介紹,H100采用風(fēng)冷和液冷設(shè)計。

這款產(chǎn)品預(yù)計于今年晚些時候全面發(fā)售。阿里云、AWS、百度智能云、谷歌云、微軟Azure、Oracle Cloud、騰訊云和火山引擎等云服務(wù)商均計劃推出基于H100的實例。

為了將Hopper的強大算力引入主流服務(wù)器,英偉達推出了全新的融合加速器H100 CNX。它將網(wǎng)絡(luò)與GPU直接相連,耦合H100 GPU與英偉達ConnectX-7 400Gb/s InfiniBand和以太網(wǎng)智能網(wǎng)卡,使網(wǎng)絡(luò)數(shù)據(jù)通過DMA以50GB/s的速度直接傳輸?shù)紿100,能夠避免帶寬瓶頸,為I/O密集型應(yīng)用提供更強勁的性能。

02.更強企業(yè)級AI系統(tǒng),全球最快AI超算

基于A100,英偉達最先進的企業(yè)級AI基礎(chǔ)設(shè)施DGX H100系統(tǒng)、DGX POD、DGX SuperPOD以及一一登場。它們將從今年第三季度開始供應(yīng)。

黃仁勛稱,在財富10強企業(yè)和100強企業(yè)中,分別有8家和44家企業(yè)使用DGX作為AI基礎(chǔ)架構(gòu)。

英偉達DGX系統(tǒng)現(xiàn)在包含英偉達AI Enterprise軟件套件,該套件新增了對裸金屬基礎(chǔ)設(shè)施的支持。DGX客戶可使用軟件套件中的預(yù)訓(xùn)練AI平臺模型、工具包和框架來加快工作速度。

1、DGX H100:最先進的企業(yè)級AI基礎(chǔ)設(shè)施

第四代英偉達DGX系統(tǒng)DGX H100是一款基于英偉達H100 Tensor Core GPU的AI平臺。

每個DGX H100系統(tǒng)配備8塊H100 GPU,總計有6400億個晶體管,由NVLink連接,在全新的FP8精度下AI性能可達32Petaflops,比上一代系統(tǒng)性能高6倍。

DGX H100系統(tǒng)中每塊GPU都通過第四代 NVLink連接,可提供900GB/s的帶寬,是上一代系統(tǒng)的1.5倍。DGX H100的顯存帶寬可達24TB/s。

該系統(tǒng)支持雙x86 CPU,每個系統(tǒng)還包含2個英偉達BlueField-3 DPU,用于卸載、加速和隔離高級網(wǎng)絡(luò)、存儲及安全服務(wù)。

8個英偉達ConnectX-7 Quantum-2 InfiniBand網(wǎng)卡能夠提供400GB/s的吞吐量,可用于連接計算和存儲,這一速度比上一代系統(tǒng)提升了1倍。

2、DGX SuperPOD:FP8 AI性能達1Exaflops

DGX H100系統(tǒng)是新一代英偉達DGX POD和DGX SuperPOD超級計算機的構(gòu)建模塊。

借助NVLink Switch系統(tǒng),擁有32個節(jié)點、256個GPU的DGX Pod,其HBM3顯存達20.5TB,顯存帶寬高達768TB/s。

“相比之下,整個互聯(lián)網(wǎng)不過只有100TB/s。”黃仁勛感慨道。每個DGX都可借助4端口光學(xué)收發(fā)器連接到NVLink Switch,每個端口都有8個100G-PAM4通道,每秒能夠傳輸100GB,32個NVLink收發(fā)器連接到1個機架單元的NVLink Switch系統(tǒng)。

新一代DGX SuperPOD可提供1Exaflops的FP8 AI性能,比上一代產(chǎn)品性能高6倍,能夠運行具有數(shù)萬億參數(shù)的大型語言模型工作負載;還有20TB的HBM3顯存、192TFLOPS的SHARP網(wǎng)絡(luò)計算性能。

通過采用Quantum-2 InfiniBand連接及NVLink Switch系統(tǒng),新DGX SuperPOD架構(gòu)在GPU之間移動數(shù)據(jù)的帶寬高達70TB/s,比上一代高11倍。

Quantum-2 InfiniBand交換機芯片擁有570億個晶體管,能提供64個400Gbps端口。多個DGX SuperPOD單元可組合使用。

此外,英偉達推出新的DGX-Ready托管服務(wù)計劃,以助力簡化AI部署。其DGX Foundry托管的開發(fā)解決方案正在全球擴展,北美、歐洲和亞洲的新增地點支持遠程訪問DGX SuperPOD。

DGX Foundry中包含英偉達Base Command軟件,該軟件能夠使客戶基于DGX SuperPOD基礎(chǔ)設(shè)施,輕松管理端到端AI開發(fā)生命周期。

3、Eos:全球運行速度最快的AI超算

黃仁勛還透露說,英偉達正在打造Eos超級計算機,并稱這是“首個Hopper AI工廠”,將于數(shù)月后推出。

該超算包含18個DGX POD、576臺DGX H100系統(tǒng),共計4608塊DGX H100 GPU,預(yù)計將提供18.4Exaflops的AI算力,這比目前運行速度最快的日本富岳(Fugaku)超級計算機快4倍。在傳統(tǒng)科學(xué)計算方面,Eos預(yù)計可提供275Petaflops的性能。

03.由兩個CPU組成的超級芯片

除了GPU外,英偉達數(shù)據(jù)中心“三芯”戰(zhàn)略中另一大支柱CPU也有新進展。

今日,英偉達推出首款面向HPC和AI基礎(chǔ)設(shè)施的基于Arm Neoverse的數(shù)據(jù)中心專屬CPU——Grace CPU超級芯片。這被黃仁勛稱作“AI工廠的理想CPU”。

據(jù)介紹,Grace Hopper超級芯片模組能在CPU與GPU之間進行芯片間的直接連接,其關(guān)鍵驅(qū)動技術(shù)是內(nèi)存一致性芯片之間的NVLink互連,每個鏈路的速度達到900GB/s。

Grace CPU超級芯片也可以是由兩個CPU芯片組成。它們之間通過高速、低延遲的芯片到芯片互連技術(shù)NVLink-C2C連在一起。

它基于最新的Armv9架構(gòu),單個socket擁有144個CPU核心,具備最高的單線程核心性能,支持Arm新一代矢量擴展。

在SPECrate 2017_int_base基準測試中,Grace CPU超級芯片的模擬性能得分為740,據(jù)英偉達實驗室使用同類編譯器估算,這一結(jié)果相比當(dāng)前DGX A100搭載的雙CPU高1.5倍以上。

此外,Grace CPU超級芯片可實現(xiàn)當(dāng)今領(lǐng)先服務(wù)器芯片內(nèi)存帶寬和能效的2倍。

其依托帶有糾錯碼的LPDDR5x內(nèi)存組成的創(chuàng)新的內(nèi)存子系統(tǒng),能實現(xiàn)速度和功耗的最佳平衡。LPDDR5x內(nèi)存子系統(tǒng)提供兩倍于傳統(tǒng)DDR5設(shè)計的帶寬,可達到1TB/s,同時功耗也大幅降低,CPU加內(nèi)存整體功耗僅500瓦。

Grace CPU超級芯片可運行所有的英偉達計算軟件棧,結(jié)合英偉達ConnectX-7網(wǎng)卡,能夠靈活地配置到服務(wù)器中,或作為獨立的純CPU系統(tǒng),或作為GPU加速服務(wù)器,可以搭配1塊、2塊、4塊或8塊基于Hopper的GPU。

也就是說,用戶只維護一套軟件棧,就能針對自身特定的工作負載做好性能優(yōu)化。

黃仁勛說,Grace超級芯片有望明年開始供貨。

04.為定制芯片集成開放NVLink將支持UCIe小芯片標(biāo)準

我們單獨來說一下NVLink-C2C技術(shù)。

前面說的Grace CPU超級芯片系列、去年發(fā)布的Grace Hopper超級芯片都采用了這一技術(shù)來連接處理器芯片。

NVIDIA超大規(guī)模計算副總裁Ian Buck認為:“為應(yīng)對摩爾定律發(fā)展趨緩的局面,必須開發(fā)小芯片和異構(gòu)計算。”

因此,英偉達利用其在高速互連方面的專業(yè)知識開發(fā)出統(tǒng)一、開放的NVLink-C2C互連技術(shù)。

該技術(shù)將支持定制裸片與英偉達GPU、CPU、DPU、NIC和SoC之間實現(xiàn)一致的互連,從而通過小芯片構(gòu)建出新型的集成產(chǎn)品,助力數(shù)據(jù)中心打造新一代的系統(tǒng)級集成。

NVLink-C2C現(xiàn)已為半定制芯片開放,支持其與NVIDIA技術(shù)的集成。

通過采用先進的封裝技術(shù),英偉達NVLink-C2C互連鏈路的能效最多可比NVIDIA芯片上的PCIe Gen 5高出25倍,面積效率高出90倍,可實現(xiàn)每秒900GB乃至更高的一致互聯(lián)帶寬。

NVLink-C2C支持Arm AMBA一致性集線器接口(AMBA CHI)協(xié)議,或CXL工業(yè)標(biāo)準協(xié)議,可實現(xiàn)設(shè)備間的互操作性。當(dāng)前英偉達和Arm正在密切合作,以強化AMBA CHI來支持與其他互連處理器完全一致且安全的加速器。

NVIDIA NVLink-C2C依托于英偉達的SERDES和LINK設(shè)計技術(shù),可從PCB級集成和多芯片模組擴展到硅插入器和晶圓級連接。這可提供極高的帶寬,同時優(yōu)化能效和裸片面積效率。

除NVLink-C2C之外,NVIDIA還將支持本月早些時候發(fā)布的通用小芯片互連傳輸通道UCIe標(biāo)準。

▲UCIe標(biāo)準

與NVIDIA芯片的定制芯片集成既可以使用UCIe 標(biāo)準,也可以使用NVLink-C2C,而后者經(jīng)過優(yōu)化,延遲更低、帶寬更高、能效更高。

05.AI軟件:對話式AI服務(wù)全面發(fā)行推出推薦系統(tǒng)AI框架1.0版本

如今英偉達已經(jīng)能提供全棧AI,除了AI計算硬件外,其AI軟件也有不少進展。

黃仁勛說,AI已經(jīng)從根本上改變了軟件的能力以及開發(fā)軟件的方式,過去十年,英偉達加速計算在AI領(lǐng)域?qū)崿F(xiàn)了百萬倍的加速。

今日,英偉達發(fā)布了60多個針對CUDA-X的一系列庫、工具和技術(shù)的更新,以加速量子計算和6G研究、網(wǎng)絡(luò)安全、基因組學(xué)、藥物研發(fā)等領(lǐng)域的研究進展。

英偉達將使用其首臺AI數(shù)字孿生超級計算機Earth-2來應(yīng)對氣候變化挑戰(zhàn),并創(chuàng)建了Physics-ML模型來模擬全球天氣模式的動態(tài)變化。

英偉達還與來自加州理工學(xué)院、伯克利實驗室等高校及科研機構(gòu)的研究人員們開發(fā)了一個天氣預(yù)報AI模型FourCastNet,該模型基于10TB的地球系統(tǒng)數(shù)據(jù)進行訓(xùn)練,首次在降水預(yù)測上達到比先進的數(shù)值模型更高的準確率,并使預(yù)測速度提高了4~5個數(shù)量級。以前,傳統(tǒng)的數(shù)值模擬需要一年時間,而現(xiàn)在只需幾分鐘。

NVIDIA Triton是一款開源的、超大規(guī)模的模型推理服務(wù)器,是AI部署的“中央車站”,它支持CNN、RNN、GNN、Transformer等各種模型、各類AI框架及各類機器學(xué)習(xí)平臺,支持在云、本地、邊緣或嵌入式設(shè)備運行。

同時,黃仁勛宣布英偉達對話式AI服務(wù)Riva全面發(fā)行,Riva 2.0版本支持識別7種語言,可將神經(jīng)文本轉(zhuǎn)換為不同性別發(fā)聲的語音,用戶可通過其TAO遷移學(xué)習(xí)工具包進行自定義調(diào)優(yōu)。

Maxine是一個AI模型工具包,現(xiàn)已擁有30個先進模型,可優(yōu)化實時視頻通信的視聽效果。比如開遠程視頻會議時,Maxine可實現(xiàn)說話者與所有參會者保持眼神交流,并能將說的語言實時切換成另一種語言,而且音色聽起來不變。

本次GTC發(fā)布的版本增加了用于回聲消除和音頻超分辨率的新模型。

此外,黃仁勛也宣布推出英偉達面向推薦系統(tǒng)的AI框架Merlin的1.0版本。

Merlin可幫助企業(yè)快速構(gòu)建、部署和擴展先進的AI推薦系統(tǒng)。比如,微信用Merlin將短視頻推薦延遲縮短為原來的1/4,并將吞吐量提升了10倍。從CPU遷移至GPU,騰訊在該業(yè)務(wù)上的成本減少了1/2。

在醫(yī)療健康領(lǐng)域,黃仁勛談道,過去幾年,AI藥研初創(chuàng)公司獲得了超400億美元的投資,數(shù)字生物學(xué)革命的條件已經(jīng)成熟,他稱這將是“NVIDIA AI迄今為止最偉大的使命”。

6G標(biāo)準于2026年左右問世,一些相關(guān)基礎(chǔ)技術(shù)逐漸成形。對此,黃仁勛宣布推出了一款用于6G通信研究的AI框架Sionna。

06.Omniverse:首推數(shù)字孿生專用服務(wù)器和超級集群

黃仁勛認為,第一波AI學(xué)習(xí)是感知和推理,下一波AI的發(fā)展方向是機器人,也就是使用AI規(guī)劃行動。英偉達Omniverse平臺也正成為制造機器人軟件時必不可少的工具。

作為虛擬世界的仿真引擎,Omniverse平臺能遵循物理學(xué)定律,構(gòu)建一個趨真的數(shù)字世界,可以應(yīng)用于使用不同工具的設(shè)計師之間的遠程協(xié)作,以及工業(yè)數(shù)字孿生。

黃仁勛認為,工業(yè)數(shù)字孿生需要一種專門構(gòu)建的新型計算機,因此英偉達打造了面向工業(yè)數(shù)字孿生的OVX服務(wù)器和OVX SuperPOD超級集群。

OVX是首款Omniverse計算系統(tǒng),由8個英偉達A40 RTX GPU、3個ConnectX-6 200Gbps網(wǎng)卡(NIC)和2個英特爾至強Ice Lake CPU組成。

32臺OVX服務(wù)器可構(gòu)成OVX SuperPOD超級集群,實現(xiàn)這一連接的關(guān)鍵設(shè)施是英偉達今日新推出的Spectrum-4以太網(wǎng)平臺。

據(jù)悉,這是全球首個400Gbps端到端網(wǎng)絡(luò)平臺,其交換吞吐量比前幾代產(chǎn)品高出4倍,聚合ASIC帶寬達到51.2Tbps,支持128個400GbE端口。

Spectrum-4實現(xiàn)了納秒級計時精度,相比典型數(shù)據(jù)中心毫秒級抖動提升了5~6個數(shù)量級。這款交換機還能加速、簡化和保護網(wǎng)絡(luò)架構(gòu)。與上一代產(chǎn)品相比,其每個端口的帶寬提高了2倍,交換機數(shù)量減少到1/4,功耗降低了40%。

該平臺由英偉達Spectrum-4交換機系列、ConnectX-7智能網(wǎng)卡、BlueField-3DPU和DOCA數(shù)據(jù)中心基礎(chǔ)設(shè)施軟件組成,可提高AI應(yīng)用、數(shù)字孿生和云基礎(chǔ)架構(gòu)的性能和可擴展性,大幅加速大規(guī)模云原生應(yīng)用。

Spectrum-4 ASIC和SN5000交換機系列基于4nm工藝,有1000億個晶體管,并經(jīng)過簡化的收發(fā)器設(shè)計,實現(xiàn)領(lǐng)先的能效和總擁有成本。

Spectrum-4可在所有端口之間公平分配帶寬,支持自適應(yīng)路由選擇和增強擁塞控制機制,能顯著提升數(shù)據(jù)中心的應(yīng)用速度。

Spectrum-4 ASIC具有12.8Tbp加密帶寬和領(lǐng)先的安全功能,例如支持MACsec和VXLANsec,并通過硬件信任根將安全啟動作為默認設(shè)置,幫助確保數(shù)據(jù)流和網(wǎng)絡(luò)管理的安全性和完整性。

現(xiàn)在各大計算機制造商紛紛推出OVX服務(wù)器,對于想在OVX試用Omniverse的客戶,英偉達在全球多地提供LaunchPad計劃,第一代OVX正由英偉達和早期客戶運行,第二代OVX正被構(gòu)建中。Spectrum-4的樣機將在今年第四季度末發(fā)布。

隨后,曾在往屆GTC大會展示過的黃仁勛虛擬化身“玩偶老黃”Toy Jensen再度現(xiàn)身。

它不是錄像,而能做到完全實時地進行眼神交流與對話。黃仁勛現(xiàn)場問它“什么是合成生物學(xué)”、“你是如何制作出來的”等問題,它都對答如流。

使用英偉達Omniverse Avatar框架,企業(yè)就能快速構(gòu)建和部署像Toy Jensen這樣的虛擬形象,從模仿聲音到細微的頭部及身體運動,乃至高保真度的形象塑造,都讓虛擬人更加靈動。

最后,得益于Riva中的最新對話式AI技術(shù)和超大語言模型Megatron 530B NLP,虛擬人可以聽懂你問的問題,也能跟你實時聊天互動。

在此基礎(chǔ)上,英偉達宣布將推出Omniverse Cloud。通過Omniverse Cloud連接,協(xié)作者們使用英偉達RTX PC、筆記本電腦和工作站,均可實現(xiàn)遠程實時協(xié)同工作。

用戶如果沒有RTX計算機,只需點擊一下,即可從GeForce Now上啟動Omniverse。

07.汽車:預(yù)告DRIVE Hyperion 9,推出多模態(tài)地圖引擎

Omniverse平臺是整個工作流程的核心,DRIVE平臺則相當(dāng)于AI司機。

黃仁勛宣布下一代DRIVE Hyperion 9將從2026年起搭載到汽車中,它將擁有14個攝像頭、9個雷達、3個激光雷達和20個超聲傳感器,總體傳感器數(shù)量將是Hyperion 8的兩倍。

此外,英偉達推出了一種多模態(tài)地圖引擎NVIDIA DRIVE Map,包含攝像頭、激光雷達和雷達的數(shù)據(jù),同時兼顧安全性。

DRIVE Map有兩個地圖引擎,真值測繪地圖引擎和眾包車隊地圖引擎。黃仁勛談道,到2024年,他們預(yù)計繪制并創(chuàng)建北美、西歐和亞洲所有主要公路的數(shù)字孿生,總長度約為50萬公里。

“我們正在構(gòu)建地球級別的自動駕駛車隊數(shù)字孿生?!秉S仁勛說。

合作方面,全球第二大電動汽車制造商比亞迪將在2023年上半年開始投產(chǎn)的汽車中搭載DRIVE Orin計算平臺。自動駕駛獨角獸企業(yè)元戎啟行、中國自動駕駛創(chuàng)企云驥智行也宣布將在其L4級自動駕駛車規(guī)級量產(chǎn)方案中搭載NVIDIA DRIVE Orin SoC芯片。

美國電動汽車公司Lucid Motors、中國L4級自動駕駛科技公司文遠知行、中國新型電動車公司悠跑科技均宣布將應(yīng)用英偉達DRIVE Hyperion自動駕駛汽車平臺。

08.機器人平臺:從醫(yī)療設(shè)備到自主移動機器人

黃仁勛認為下一波AI浪潮是機器人,英偉達正在構(gòu)建多個機器人平臺,包括用于自動駕駛汽車的DRIVE、用于操縱和控制系統(tǒng)的Isaac、用于自主式基礎(chǔ)架構(gòu)的Metropolis、用于醫(yī)療設(shè)備的Holoscan等。

他將機器人系統(tǒng)的工作流程簡化為真值數(shù)據(jù)生成、AI模型訓(xùn)練、Omniverse數(shù)字孿生、機器人技術(shù)棧四大支柱。

Clara Holoscan MGX是一個開放可擴展的機器人平臺,其設(shè)計符合IEC-62304醫(yī)療級規(guī)格,核心計算機為Jetson AGX Orin和ConnectX-7智能網(wǎng)卡,并可選配NVIDIA RTX A6000 GPU。

該平臺AI算力可達每秒254~610萬億次運算,目前向早期體驗客戶開放,正式上市時間是5月,并將于2023年第一季度完成醫(yī)療級準備。

Metropolis平臺的下載量已經(jīng)達到30萬次,擁有1000多個生態(tài)系統(tǒng)合作伙伴,并在超過100萬個設(shè)施中運營。

機器人發(fā)展最快的領(lǐng)域之一是自主移動機器人(AMR),它本質(zhì)上是室內(nèi)無人駕駛,速度偏低但環(huán)境高度非結(jié)構(gòu)化。

今天,英偉達推出Isaac for AMR,它有四大核心:用于真值生成的NVIDIA DeepMap、用于訓(xùn)練模型的NVIDIA AI、搭載Orin的AMR機器人參考設(shè)計、Isaac機器人技術(shù)堆棧中的新Gem及基于Omniverse的新版Isaac Sim,每個都單獨可用且完全開放。

與DRIVE Hyperion類似,Isaac Nova是一個AMR機器人系統(tǒng)參考設(shè)計,整個Isaac堆棧都基于此構(gòu)建。Nova有2個攝像頭、2個激光雷達、8個超聲波雷達和4個魚眼攝像頭。

英偉達還宣布推出Jetson Orin開發(fā)者套件,以在邊緣實現(xiàn)服務(wù)器級的AI性能。

Nova AMR將于第二季度上市,它將配備英偉達新的DeepMap雷達制圖系統(tǒng),可以掃描和重建環(huán)境,以進行路線規(guī)劃和數(shù)字孿生仿真。

09.結(jié)語:AI開發(fā)者的前沿技術(shù)盛宴

這些年來,英偉達GTC大會已經(jīng)成為一場面向AI、HPC、科學(xué)計算、數(shù)字孿生及自動駕駛等諸多前沿領(lǐng)域的技術(shù)盛宴。

在這場盛宴中,我們不僅看到技術(shù)突破如果改變各行各業(yè)的生產(chǎn)效率和工作方式,也看到英偉達圍繞計算世界的最新布局。

隨著新一代大規(guī)模云技術(shù)的出現(xiàn),數(shù)據(jù)中心架構(gòu)有待轉(zhuǎn)型。在穩(wěn)擁GPU基本盤的基礎(chǔ)之上,英偉達的角色正從圖形顯示和加速計算“偏科學(xué)霸”,轉(zhuǎn)向圍繞數(shù)據(jù)中心三大芯片支柱全面發(fā)展。

黃仁勛認為,數(shù)據(jù)中心正在轉(zhuǎn)變成“AI工廠”,它通過處理海量的數(shù)據(jù)來實現(xiàn)智能,而今日推出的H100便是實現(xiàn)企業(yè)AI業(yè)務(wù)加速的引擎。

H100的多項技術(shù)創(chuàng)新,數(shù)據(jù)中心專屬Grace CPU超級芯片的特殊設(shè)計,以及AI和Omniverse平臺的持續(xù)升級,進一步擴大了英偉達在加速AI訓(xùn)練及推理領(lǐng)域的領(lǐng)導(dǎo)地位。

在為期4天的英偉達GTC大會上,我們還將看到更多不同細分領(lǐng)域的專家,分享他們?nèi)绾卫肁I和加速計算領(lǐng)域的技術(shù)創(chuàng)新,來開展各類開創(chuàng)性的研究或解決正面臨的挑戰(zhàn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

英偉達

6.7k
  • 英偉達或于12月宣布在泰國投資計劃
  • 機構(gòu):英偉達將Blackwell Ultra產(chǎn)品更名為B300系列,預(yù)計2025年將推動CoWoS-L增長

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

英偉達連甩20枚AI核彈,800億晶體管GPU、144核CPU來了

時隔兩年,Hopper架構(gòu)登場!

文|芯東西  ZeR0

編輯|漠影

芯東西3月23日凌晨報道,今日,NVIDIA(英偉達)攜基于最新Hopper架構(gòu)的H100 GPU系列新品高調(diào)回歸!

英偉達創(chuàng)始人兼CEO黃仁勛依然穿著皮衣,不過這次他沒有出現(xiàn)在幾乎已成GTC大會“標(biāo)配”的廚房場景中,而是在一個更具科幻感的虛擬空間。

延續(xù)以往風(fēng)格,黃仁勛在主題演講中繼續(xù)秒天秒地秒空氣,公布多個“全球首款”。這次他帶來一系列堪稱“地表最強”的AI重磅新品,隨便一個精度的AI性能,都比上一代A100高出3~6倍。

雖然英偉達并購Arm的計劃剛剛告吹,但它的數(shù)據(jù)中心“三芯”總路線(GPU+DPU+CPU)依然不動搖——繼去年推出其首款數(shù)據(jù)中心CPU后,今天,英偉達又亮出一款基于Arm架構(gòu)的Grace CPU超級芯片。

此外,黃仁勛再次派出自己的虛擬數(shù)字人化身“玩偶老黃”Toy Jensen,并跟這個表情生動的玩偶進行了一番流暢的實時問答對話。

憑借押中圖形處理和人工智能(AI)兩大賽道,英偉達已經(jīng)成為全球半導(dǎo)體市值TOP1。截至文章發(fā)布時間,英偉達的市值超過6600億美元,比第二名臺積電足足多了近1100億美元。

下面就讓我們來看看本場GTC大會的完整干貨:

1、H100 GPU:采用臺積電4N工藝,擁有800億個晶體管,實現(xiàn)了首個GPU機密計算,相比A100,F(xiàn)P8性能提升6倍,F(xiàn)P16、TF32、FP64性能各提升3倍。

2、全新NVLink Switch系統(tǒng):高度可擴展,支持256塊H100 GPU互連。

3、融合加速器H100 CNX:耦合H100 GPU與ConnectX-7和以太網(wǎng)智能網(wǎng)卡,可為I/O密集型應(yīng)用提供更強勁的性能。

4、DGX H100:配備8塊H100 GPU,總計有6400億個晶體管,在全新的FP8精度下AI性能比上一代高6倍,可提供900GB/s的帶寬。

5、DGX SuperPOD:最多由32個DGX H100組成,AI算力可達1EFLOPS。

6、Eos超級計算機:全球運行速度最快的AI超級計算機,配備576臺DGX H100系統(tǒng),F(xiàn)P8算力達到18EFLOPS,PF64算力達到275PFLOPS。

7、Grace CPU超級芯片:由兩個CPU芯片組成,采用最新Armv9架構(gòu),擁有144個CPU核心和1TB/s的內(nèi)存帶寬,將于2023年上半年供貨。

8、為定制芯片集成開放NVLink:采用先進封裝技術(shù),與英偉達芯片上的PCIe Gen 5相比,能源效率高25倍,面積效率高90倍。英偉達還將支持通用小芯片互連傳輸通道UCIe標(biāo)準。

9、CUDA-X:60多個針對CUDA-X的一系列庫、工具和技術(shù)的更新。

10、Riva 2.0:對話式AI服務(wù)Riva全面發(fā)行,2.0版本支持識別7種語言,可將神經(jīng)文本轉(zhuǎn)換為不同性別發(fā)聲的語音。

11、Merlin 1.0:可幫助企業(yè)快速構(gòu)建、部署和擴展先進的AI推薦系統(tǒng)。

12、Sionna:一款用于6G通信研究的AI框架。

13、OVX與OVX SuperPod:面向工業(yè)數(shù)字孿生的數(shù)據(jù)中心級服務(wù)器和超級集群。

14、Spectrum-4:全球首個400Gbps端到端網(wǎng)絡(luò)平臺,交換吞吐量比前幾代產(chǎn)品高出4倍,達到51.2Tbps。

15、Omniverse Cloud:支持協(xié)作者們隨時隨地實現(xiàn)遠程實時協(xié)同工作。

16、DRIVE Hyperion 9:汽車參考設(shè)計,擁有14個攝像頭、9個雷達、3個激光雷達和20個超聲傳感器,總體傳感器數(shù)量是上一代的兩倍。

17、DRIVE Map:多模態(tài)地圖引擎,包含攝像頭、激光雷達和雷達的數(shù)據(jù),同時兼顧安全性。

18、Clara Holoscan MGX:可供醫(yī)療設(shè)備行業(yè)在邊緣開發(fā)和部署實時AI應(yīng)用的計算平臺,AI算力可達每秒254~610萬億次運算。

19、Isaac for AMR:提供自主移動機器人系統(tǒng)參考設(shè)計。

20、Jetson AGX Orin開發(fā)者套件:在邊緣實現(xiàn)服務(wù)器級的AI性能。

黃仁勛還介紹了英偉達創(chuàng)建的NVIDIA AI加速計劃,通過與AI生態(tài)系統(tǒng)中的開發(fā)者合作,開發(fā)工程化解決方案,以確保客戶放心部署。

01.H100 GPU:800億晶體管、六大創(chuàng)新

每次英偉達的GPU新架構(gòu)都會以一位科學(xué)家的名字來命名,這次同樣如此。

新Hopper架構(gòu)的命名取自美國計算機科學(xué)家格蕾絲·赫柏(Grace Hopper),她是耶魯大學(xué)第一位數(shù)學(xué)女博士、世界上第三位程序員、全球首個編譯器的發(fā)明者,也是第一個發(fā)現(xiàn)“bug”的人。

▲格蕾絲·赫柏正在教學(xué)COBOL編程語言

1945年9月9日,格蕾絲使用的Mark Ⅱ機出現(xiàn)故障,經(jīng)過近一天的排查,她找到了故障的原因:繼電器中有一只死掉的蛾子。后來,“bug”(小蟲)和“debug”(除蟲)這兩個詞匯就作為計算機領(lǐng)域的專用詞匯流傳至今。

基于Hopper架構(gòu)的一系列AI計算新品,被冠上各種“全球首款”。按行業(yè)慣例,但凡比較AI算力,必會拿英偉達最新旗艦GPU作為衡量標(biāo)準。

英偉達也不例外,先“碾壓”一下自己兩年前發(fā)布的上一代A100 GPU。

作為全球首款基于Hopper架構(gòu)的GPU,英偉達 H100接過為加速AI和高性能計算(HPC)扛旗的重任,F(xiàn)P64、TF32、FP16精度下AI性能都達到A100的3倍。

可以看到,NVIDIA越來越熱衷于走稀疏化路線。過去六年,英偉達相繼研發(fā)了使用FP32、FP16進行訓(xùn)練的技術(shù)。此次H100的性能介紹又出現(xiàn)了新的Tensor處理格式FP8,而FP8精度下的AI性能可達到4PFLOPS,約為A100 FP16的6倍。

從技術(shù)進展來看,H100有6項突破性創(chuàng)新:

1)先進芯片:H100采用臺積電4N工藝、臺積電CoWoS 2.5D封裝,有800億個晶體管(A100有540億個晶體管),搭載了HBM3顯存,可實現(xiàn)近5TB/s的外部互聯(lián)帶寬。

H100是首款支持PCIe 5.0的GPU,也是首款采用HBM3標(biāo)準的GPU,單個H100可支持40Tb/s的IO帶寬,實現(xiàn)3TB/s的顯存帶寬。黃仁勛說,20塊H100 GPU便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量。

2)新Transformer引擎:該引擎將新的Tensor Core與能使用FP8和FP16數(shù)字格式的軟件結(jié)合,動態(tài)處理Transformer網(wǎng)絡(luò)的各個層,在不影響準確性的情況下,可將Transformer模型的訓(xùn)練時間從數(shù)周縮短至幾天。

3)第二代安全多實例GPU:MIG技術(shù)支持將單個GPU分為7個更小且完全獨立的實例,以處理不同類型的作業(yè),為每個GPU實例提供安全的多租戶配置。H100能托管7個云租戶,而A100僅能托管1個,也就是將MIG的部分能力擴展了7倍。每個H100實例的性能相當(dāng)于兩個完整的英偉達云推理T4 GPU。

4)機密計算:H100是全球首款具有機密計算功能的GPU加速器,能保護AI模型和正在處理的客戶數(shù)據(jù),可以應(yīng)用在醫(yī)療健康和金融服務(wù)等隱私敏感型行業(yè)的聯(lián)邦學(xué)習(xí),以及共享云基礎(chǔ)設(shè)施。

5)第4代英偉達NVLink:為了加速大型AI模型,NVLink結(jié)合全新外接NVLink Switch,可將NVLink擴展為服務(wù)器間的互聯(lián)網(wǎng)絡(luò),最多連接多達256個H100 GPU,相較于上一代采用英偉達 HDR Quantum InfiniBand網(wǎng)絡(luò),帶寬高出9倍。

6)DPX指令:Hopper引入了一組名為DPX的新指令集,DPX可加速動態(tài)編程算法,解決路徑優(yōu)化、基因組學(xué)等算法優(yōu)化問題,與CPU和上一代GPU相比,其速度提升分別可達40倍和7倍。

總體來說,H100的這些技術(shù)優(yōu)化,將對跑深度推薦系統(tǒng)、大型AI語言模型、基因組學(xué)、復(fù)雜數(shù)字孿生、氣候科學(xué)等任務(wù)的效率提升非常明顯。

比如,用H100支持聊天機器人使用的monolithic Transformer語言模型Megatron 530B,吞吐量比上一代產(chǎn)品高出30倍,同時能滿足實時對話式AI所需的次秒級延遲。

再比如用H100訓(xùn)練包含3950億個參數(shù)的混合專家模型,訓(xùn)練速度可加速高達9倍,訓(xùn)練時間從幾周縮短到幾天。

H100將提供SXM和PCIe兩種規(guī)格,可滿足各種服務(wù)器設(shè)計需求。

其中H100 SXM提供4 GPU和8 GPU配置的HGX H100服務(wù)器主板;H100 PCIe通過NVLink連接兩塊GPU,相較PCIe 5.0可提供7倍以上的帶寬。PCIe規(guī)格便于集成到現(xiàn)有的數(shù)據(jù)中心基礎(chǔ)設(shè)施中。

這兩種規(guī)格的電力需求都大幅增長。H100 SXM版的散熱設(shè)計功耗(TDP)達到700W,比A100的400W高出75%。據(jù)黃仁勛介紹,H100采用風(fēng)冷和液冷設(shè)計。

這款產(chǎn)品預(yù)計于今年晚些時候全面發(fā)售。阿里云、AWS、百度智能云、谷歌云、微軟Azure、Oracle Cloud、騰訊云和火山引擎等云服務(wù)商均計劃推出基于H100的實例。

為了將Hopper的強大算力引入主流服務(wù)器,英偉達推出了全新的融合加速器H100 CNX。它將網(wǎng)絡(luò)與GPU直接相連,耦合H100 GPU與英偉達ConnectX-7 400Gb/s InfiniBand和以太網(wǎng)智能網(wǎng)卡,使網(wǎng)絡(luò)數(shù)據(jù)通過DMA以50GB/s的速度直接傳輸?shù)紿100,能夠避免帶寬瓶頸,為I/O密集型應(yīng)用提供更強勁的性能。

02.更強企業(yè)級AI系統(tǒng),全球最快AI超算

基于A100,英偉達最先進的企業(yè)級AI基礎(chǔ)設(shè)施DGX H100系統(tǒng)、DGX POD、DGX SuperPOD以及一一登場。它們將從今年第三季度開始供應(yīng)。

黃仁勛稱,在財富10強企業(yè)和100強企業(yè)中,分別有8家和44家企業(yè)使用DGX作為AI基礎(chǔ)架構(gòu)。

英偉達DGX系統(tǒng)現(xiàn)在包含英偉達AI Enterprise軟件套件,該套件新增了對裸金屬基礎(chǔ)設(shè)施的支持。DGX客戶可使用軟件套件中的預(yù)訓(xùn)練AI平臺模型、工具包和框架來加快工作速度。

1、DGX H100:最先進的企業(yè)級AI基礎(chǔ)設(shè)施

第四代英偉達DGX系統(tǒng)DGX H100是一款基于英偉達H100 Tensor Core GPU的AI平臺。

每個DGX H100系統(tǒng)配備8塊H100 GPU,總計有6400億個晶體管,由NVLink連接,在全新的FP8精度下AI性能可達32Petaflops,比上一代系統(tǒng)性能高6倍。

DGX H100系統(tǒng)中每塊GPU都通過第四代 NVLink連接,可提供900GB/s的帶寬,是上一代系統(tǒng)的1.5倍。DGX H100的顯存帶寬可達24TB/s。

該系統(tǒng)支持雙x86 CPU,每個系統(tǒng)還包含2個英偉達BlueField-3 DPU,用于卸載、加速和隔離高級網(wǎng)絡(luò)、存儲及安全服務(wù)。

8個英偉達ConnectX-7 Quantum-2 InfiniBand網(wǎng)卡能夠提供400GB/s的吞吐量,可用于連接計算和存儲,這一速度比上一代系統(tǒng)提升了1倍。

2、DGX SuperPOD:FP8 AI性能達1Exaflops

DGX H100系統(tǒng)是新一代英偉達DGX POD和DGX SuperPOD超級計算機的構(gòu)建模塊。

借助NVLink Switch系統(tǒng),擁有32個節(jié)點、256個GPU的DGX Pod,其HBM3顯存達20.5TB,顯存帶寬高達768TB/s。

“相比之下,整個互聯(lián)網(wǎng)不過只有100TB/s?!秉S仁勛感慨道。每個DGX都可借助4端口光學(xué)收發(fā)器連接到NVLink Switch,每個端口都有8個100G-PAM4通道,每秒能夠傳輸100GB,32個NVLink收發(fā)器連接到1個機架單元的NVLink Switch系統(tǒng)。

新一代DGX SuperPOD可提供1Exaflops的FP8 AI性能,比上一代產(chǎn)品性能高6倍,能夠運行具有數(shù)萬億參數(shù)的大型語言模型工作負載;還有20TB的HBM3顯存、192TFLOPS的SHARP網(wǎng)絡(luò)計算性能。

通過采用Quantum-2 InfiniBand連接及NVLink Switch系統(tǒng),新DGX SuperPOD架構(gòu)在GPU之間移動數(shù)據(jù)的帶寬高達70TB/s,比上一代高11倍。

Quantum-2 InfiniBand交換機芯片擁有570億個晶體管,能提供64個400Gbps端口。多個DGX SuperPOD單元可組合使用。

此外,英偉達推出新的DGX-Ready托管服務(wù)計劃,以助力簡化AI部署。其DGX Foundry托管的開發(fā)解決方案正在全球擴展,北美、歐洲和亞洲的新增地點支持遠程訪問DGX SuperPOD。

DGX Foundry中包含英偉達Base Command軟件,該軟件能夠使客戶基于DGX SuperPOD基礎(chǔ)設(shè)施,輕松管理端到端AI開發(fā)生命周期。

3、Eos:全球運行速度最快的AI超算

黃仁勛還透露說,英偉達正在打造Eos超級計算機,并稱這是“首個Hopper AI工廠”,將于數(shù)月后推出。

該超算包含18個DGX POD、576臺DGX H100系統(tǒng),共計4608塊DGX H100 GPU,預(yù)計將提供18.4Exaflops的AI算力,這比目前運行速度最快的日本富岳(Fugaku)超級計算機快4倍。在傳統(tǒng)科學(xué)計算方面,Eos預(yù)計可提供275Petaflops的性能。

03.由兩個CPU組成的超級芯片

除了GPU外,英偉達數(shù)據(jù)中心“三芯”戰(zhàn)略中另一大支柱CPU也有新進展。

今日,英偉達推出首款面向HPC和AI基礎(chǔ)設(shè)施的基于Arm Neoverse的數(shù)據(jù)中心專屬CPU——Grace CPU超級芯片。這被黃仁勛稱作“AI工廠的理想CPU”。

據(jù)介紹,Grace Hopper超級芯片模組能在CPU與GPU之間進行芯片間的直接連接,其關(guān)鍵驅(qū)動技術(shù)是內(nèi)存一致性芯片之間的NVLink互連,每個鏈路的速度達到900GB/s。

Grace CPU超級芯片也可以是由兩個CPU芯片組成。它們之間通過高速、低延遲的芯片到芯片互連技術(shù)NVLink-C2C連在一起。

它基于最新的Armv9架構(gòu),單個socket擁有144個CPU核心,具備最高的單線程核心性能,支持Arm新一代矢量擴展。

在SPECrate 2017_int_base基準測試中,Grace CPU超級芯片的模擬性能得分為740,據(jù)英偉達實驗室使用同類編譯器估算,這一結(jié)果相比當(dāng)前DGX A100搭載的雙CPU高1.5倍以上。

此外,Grace CPU超級芯片可實現(xiàn)當(dāng)今領(lǐng)先服務(wù)器芯片內(nèi)存帶寬和能效的2倍。

其依托帶有糾錯碼的LPDDR5x內(nèi)存組成的創(chuàng)新的內(nèi)存子系統(tǒng),能實現(xiàn)速度和功耗的最佳平衡。LPDDR5x內(nèi)存子系統(tǒng)提供兩倍于傳統(tǒng)DDR5設(shè)計的帶寬,可達到1TB/s,同時功耗也大幅降低,CPU加內(nèi)存整體功耗僅500瓦。

Grace CPU超級芯片可運行所有的英偉達計算軟件棧,結(jié)合英偉達ConnectX-7網(wǎng)卡,能夠靈活地配置到服務(wù)器中,或作為獨立的純CPU系統(tǒng),或作為GPU加速服務(wù)器,可以搭配1塊、2塊、4塊或8塊基于Hopper的GPU。

也就是說,用戶只維護一套軟件棧,就能針對自身特定的工作負載做好性能優(yōu)化。

黃仁勛說,Grace超級芯片有望明年開始供貨。

04.為定制芯片集成開放NVLink將支持UCIe小芯片標(biāo)準

我們單獨來說一下NVLink-C2C技術(shù)。

前面說的Grace CPU超級芯片系列、去年發(fā)布的Grace Hopper超級芯片都采用了這一技術(shù)來連接處理器芯片。

NVIDIA超大規(guī)模計算副總裁Ian Buck認為:“為應(yīng)對摩爾定律發(fā)展趨緩的局面,必須開發(fā)小芯片和異構(gòu)計算。”

因此,英偉達利用其在高速互連方面的專業(yè)知識開發(fā)出統(tǒng)一、開放的NVLink-C2C互連技術(shù)。

該技術(shù)將支持定制裸片與英偉達GPU、CPU、DPU、NIC和SoC之間實現(xiàn)一致的互連,從而通過小芯片構(gòu)建出新型的集成產(chǎn)品,助力數(shù)據(jù)中心打造新一代的系統(tǒng)級集成。

NVLink-C2C現(xiàn)已為半定制芯片開放,支持其與NVIDIA技術(shù)的集成。

通過采用先進的封裝技術(shù),英偉達NVLink-C2C互連鏈路的能效最多可比NVIDIA芯片上的PCIe Gen 5高出25倍,面積效率高出90倍,可實現(xiàn)每秒900GB乃至更高的一致互聯(lián)帶寬。

NVLink-C2C支持Arm AMBA一致性集線器接口(AMBA CHI)協(xié)議,或CXL工業(yè)標(biāo)準協(xié)議,可實現(xiàn)設(shè)備間的互操作性。當(dāng)前英偉達和Arm正在密切合作,以強化AMBA CHI來支持與其他互連處理器完全一致且安全的加速器。

NVIDIA NVLink-C2C依托于英偉達的SERDES和LINK設(shè)計技術(shù),可從PCB級集成和多芯片模組擴展到硅插入器和晶圓級連接。這可提供極高的帶寬,同時優(yōu)化能效和裸片面積效率。

除NVLink-C2C之外,NVIDIA還將支持本月早些時候發(fā)布的通用小芯片互連傳輸通道UCIe標(biāo)準。

▲UCIe標(biāo)準

與NVIDIA芯片的定制芯片集成既可以使用UCIe 標(biāo)準,也可以使用NVLink-C2C,而后者經(jīng)過優(yōu)化,延遲更低、帶寬更高、能效更高。

05.AI軟件:對話式AI服務(wù)全面發(fā)行推出推薦系統(tǒng)AI框架1.0版本

如今英偉達已經(jīng)能提供全棧AI,除了AI計算硬件外,其AI軟件也有不少進展。

黃仁勛說,AI已經(jīng)從根本上改變了軟件的能力以及開發(fā)軟件的方式,過去十年,英偉達加速計算在AI領(lǐng)域?qū)崿F(xiàn)了百萬倍的加速。

今日,英偉達發(fā)布了60多個針對CUDA-X的一系列庫、工具和技術(shù)的更新,以加速量子計算和6G研究、網(wǎng)絡(luò)安全、基因組學(xué)、藥物研發(fā)等領(lǐng)域的研究進展。

英偉達將使用其首臺AI數(shù)字孿生超級計算機Earth-2來應(yīng)對氣候變化挑戰(zhàn),并創(chuàng)建了Physics-ML模型來模擬全球天氣模式的動態(tài)變化。

英偉達還與來自加州理工學(xué)院、伯克利實驗室等高校及科研機構(gòu)的研究人員們開發(fā)了一個天氣預(yù)報AI模型FourCastNet,該模型基于10TB的地球系統(tǒng)數(shù)據(jù)進行訓(xùn)練,首次在降水預(yù)測上達到比先進的數(shù)值模型更高的準確率,并使預(yù)測速度提高了4~5個數(shù)量級。以前,傳統(tǒng)的數(shù)值模擬需要一年時間,而現(xiàn)在只需幾分鐘。

NVIDIA Triton是一款開源的、超大規(guī)模的模型推理服務(wù)器,是AI部署的“中央車站”,它支持CNN、RNN、GNN、Transformer等各種模型、各類AI框架及各類機器學(xué)習(xí)平臺,支持在云、本地、邊緣或嵌入式設(shè)備運行。

同時,黃仁勛宣布英偉達對話式AI服務(wù)Riva全面發(fā)行,Riva 2.0版本支持識別7種語言,可將神經(jīng)文本轉(zhuǎn)換為不同性別發(fā)聲的語音,用戶可通過其TAO遷移學(xué)習(xí)工具包進行自定義調(diào)優(yōu)。

Maxine是一個AI模型工具包,現(xiàn)已擁有30個先進模型,可優(yōu)化實時視頻通信的視聽效果。比如開遠程視頻會議時,Maxine可實現(xiàn)說話者與所有參會者保持眼神交流,并能將說的語言實時切換成另一種語言,而且音色聽起來不變。

本次GTC發(fā)布的版本增加了用于回聲消除和音頻超分辨率的新模型。

此外,黃仁勛也宣布推出英偉達面向推薦系統(tǒng)的AI框架Merlin的1.0版本。

Merlin可幫助企業(yè)快速構(gòu)建、部署和擴展先進的AI推薦系統(tǒng)。比如,微信用Merlin將短視頻推薦延遲縮短為原來的1/4,并將吞吐量提升了10倍。從CPU遷移至GPU,騰訊在該業(yè)務(wù)上的成本減少了1/2。

在醫(yī)療健康領(lǐng)域,黃仁勛談道,過去幾年,AI藥研初創(chuàng)公司獲得了超400億美元的投資,數(shù)字生物學(xué)革命的條件已經(jīng)成熟,他稱這將是“NVIDIA AI迄今為止最偉大的使命”。

6G標(biāo)準于2026年左右問世,一些相關(guān)基礎(chǔ)技術(shù)逐漸成形。對此,黃仁勛宣布推出了一款用于6G通信研究的AI框架Sionna。

06.Omniverse:首推數(shù)字孿生專用服務(wù)器和超級集群

黃仁勛認為,第一波AI學(xué)習(xí)是感知和推理,下一波AI的發(fā)展方向是機器人,也就是使用AI規(guī)劃行動。英偉達Omniverse平臺也正成為制造機器人軟件時必不可少的工具。

作為虛擬世界的仿真引擎,Omniverse平臺能遵循物理學(xué)定律,構(gòu)建一個趨真的數(shù)字世界,可以應(yīng)用于使用不同工具的設(shè)計師之間的遠程協(xié)作,以及工業(yè)數(shù)字孿生。

黃仁勛認為,工業(yè)數(shù)字孿生需要一種專門構(gòu)建的新型計算機,因此英偉達打造了面向工業(yè)數(shù)字孿生的OVX服務(wù)器和OVX SuperPOD超級集群。

OVX是首款Omniverse計算系統(tǒng),由8個英偉達A40 RTX GPU、3個ConnectX-6 200Gbps網(wǎng)卡(NIC)和2個英特爾至強Ice Lake CPU組成。

32臺OVX服務(wù)器可構(gòu)成OVX SuperPOD超級集群,實現(xiàn)這一連接的關(guān)鍵設(shè)施是英偉達今日新推出的Spectrum-4以太網(wǎng)平臺。

據(jù)悉,這是全球首個400Gbps端到端網(wǎng)絡(luò)平臺,其交換吞吐量比前幾代產(chǎn)品高出4倍,聚合ASIC帶寬達到51.2Tbps,支持128個400GbE端口。

Spectrum-4實現(xiàn)了納秒級計時精度,相比典型數(shù)據(jù)中心毫秒級抖動提升了5~6個數(shù)量級。這款交換機還能加速、簡化和保護網(wǎng)絡(luò)架構(gòu)。與上一代產(chǎn)品相比,其每個端口的帶寬提高了2倍,交換機數(shù)量減少到1/4,功耗降低了40%。

該平臺由英偉達Spectrum-4交換機系列、ConnectX-7智能網(wǎng)卡、BlueField-3DPU和DOCA數(shù)據(jù)中心基礎(chǔ)設(shè)施軟件組成,可提高AI應(yīng)用、數(shù)字孿生和云基礎(chǔ)架構(gòu)的性能和可擴展性,大幅加速大規(guī)模云原生應(yīng)用。

Spectrum-4 ASIC和SN5000交換機系列基于4nm工藝,有1000億個晶體管,并經(jīng)過簡化的收發(fā)器設(shè)計,實現(xiàn)領(lǐng)先的能效和總擁有成本。

Spectrum-4可在所有端口之間公平分配帶寬,支持自適應(yīng)路由選擇和增強擁塞控制機制,能顯著提升數(shù)據(jù)中心的應(yīng)用速度。

Spectrum-4 ASIC具有12.8Tbp加密帶寬和領(lǐng)先的安全功能,例如支持MACsec和VXLANsec,并通過硬件信任根將安全啟動作為默認設(shè)置,幫助確保數(shù)據(jù)流和網(wǎng)絡(luò)管理的安全性和完整性。

現(xiàn)在各大計算機制造商紛紛推出OVX服務(wù)器,對于想在OVX試用Omniverse的客戶,英偉達在全球多地提供LaunchPad計劃,第一代OVX正由英偉達和早期客戶運行,第二代OVX正被構(gòu)建中。Spectrum-4的樣機將在今年第四季度末發(fā)布。

隨后,曾在往屆GTC大會展示過的黃仁勛虛擬化身“玩偶老黃”Toy Jensen再度現(xiàn)身。

它不是錄像,而能做到完全實時地進行眼神交流與對話。黃仁勛現(xiàn)場問它“什么是合成生物學(xué)”、“你是如何制作出來的”等問題,它都對答如流。

使用英偉達Omniverse Avatar框架,企業(yè)就能快速構(gòu)建和部署像Toy Jensen這樣的虛擬形象,從模仿聲音到細微的頭部及身體運動,乃至高保真度的形象塑造,都讓虛擬人更加靈動。

最后,得益于Riva中的最新對話式AI技術(shù)和超大語言模型Megatron 530B NLP,虛擬人可以聽懂你問的問題,也能跟你實時聊天互動。

在此基礎(chǔ)上,英偉達宣布將推出Omniverse Cloud。通過Omniverse Cloud連接,協(xié)作者們使用英偉達RTX PC、筆記本電腦和工作站,均可實現(xiàn)遠程實時協(xié)同工作。

用戶如果沒有RTX計算機,只需點擊一下,即可從GeForce Now上啟動Omniverse。

07.汽車:預(yù)告DRIVE Hyperion 9,推出多模態(tài)地圖引擎

Omniverse平臺是整個工作流程的核心,DRIVE平臺則相當(dāng)于AI司機。

黃仁勛宣布下一代DRIVE Hyperion 9將從2026年起搭載到汽車中,它將擁有14個攝像頭、9個雷達、3個激光雷達和20個超聲傳感器,總體傳感器數(shù)量將是Hyperion 8的兩倍。

此外,英偉達推出了一種多模態(tài)地圖引擎NVIDIA DRIVE Map,包含攝像頭、激光雷達和雷達的數(shù)據(jù),同時兼顧安全性。

DRIVE Map有兩個地圖引擎,真值測繪地圖引擎和眾包車隊地圖引擎。黃仁勛談道,到2024年,他們預(yù)計繪制并創(chuàng)建北美、西歐和亞洲所有主要公路的數(shù)字孿生,總長度約為50萬公里。

“我們正在構(gòu)建地球級別的自動駕駛車隊數(shù)字孿生。”黃仁勛說。

合作方面,全球第二大電動汽車制造商比亞迪將在2023年上半年開始投產(chǎn)的汽車中搭載DRIVE Orin計算平臺。自動駕駛獨角獸企業(yè)元戎啟行、中國自動駕駛創(chuàng)企云驥智行也宣布將在其L4級自動駕駛車規(guī)級量產(chǎn)方案中搭載NVIDIA DRIVE Orin SoC芯片。

美國電動汽車公司Lucid Motors、中國L4級自動駕駛科技公司文遠知行、中國新型電動車公司悠跑科技均宣布將應(yīng)用英偉達DRIVE Hyperion自動駕駛汽車平臺。

08.機器人平臺:從醫(yī)療設(shè)備到自主移動機器人

黃仁勛認為下一波AI浪潮是機器人,英偉達正在構(gòu)建多個機器人平臺,包括用于自動駕駛汽車的DRIVE、用于操縱和控制系統(tǒng)的Isaac、用于自主式基礎(chǔ)架構(gòu)的Metropolis、用于醫(yī)療設(shè)備的Holoscan等。

他將機器人系統(tǒng)的工作流程簡化為真值數(shù)據(jù)生成、AI模型訓(xùn)練、Omniverse數(shù)字孿生、機器人技術(shù)棧四大支柱。

Clara Holoscan MGX是一個開放可擴展的機器人平臺,其設(shè)計符合IEC-62304醫(yī)療級規(guī)格,核心計算機為Jetson AGX Orin和ConnectX-7智能網(wǎng)卡,并可選配NVIDIA RTX A6000 GPU。

該平臺AI算力可達每秒254~610萬億次運算,目前向早期體驗客戶開放,正式上市時間是5月,并將于2023年第一季度完成醫(yī)療級準備。

Metropolis平臺的下載量已經(jīng)達到30萬次,擁有1000多個生態(tài)系統(tǒng)合作伙伴,并在超過100萬個設(shè)施中運營。

機器人發(fā)展最快的領(lǐng)域之一是自主移動機器人(AMR),它本質(zhì)上是室內(nèi)無人駕駛,速度偏低但環(huán)境高度非結(jié)構(gòu)化。

今天,英偉達推出Isaac for AMR,它有四大核心:用于真值生成的NVIDIA DeepMap、用于訓(xùn)練模型的NVIDIA AI、搭載Orin的AMR機器人參考設(shè)計、Isaac機器人技術(shù)堆棧中的新Gem及基于Omniverse的新版Isaac Sim,每個都單獨可用且完全開放。

與DRIVE Hyperion類似,Isaac Nova是一個AMR機器人系統(tǒng)參考設(shè)計,整個Isaac堆棧都基于此構(gòu)建。Nova有2個攝像頭、2個激光雷達、8個超聲波雷達和4個魚眼攝像頭。

英偉達還宣布推出Jetson Orin開發(fā)者套件,以在邊緣實現(xiàn)服務(wù)器級的AI性能。

Nova AMR將于第二季度上市,它將配備英偉達新的DeepMap雷達制圖系統(tǒng),可以掃描和重建環(huán)境,以進行路線規(guī)劃和數(shù)字孿生仿真。

09.結(jié)語:AI開發(fā)者的前沿技術(shù)盛宴

這些年來,英偉達GTC大會已經(jīng)成為一場面向AI、HPC、科學(xué)計算、數(shù)字孿生及自動駕駛等諸多前沿領(lǐng)域的技術(shù)盛宴。

在這場盛宴中,我們不僅看到技術(shù)突破如果改變各行各業(yè)的生產(chǎn)效率和工作方式,也看到英偉達圍繞計算世界的最新布局。

隨著新一代大規(guī)模云技術(shù)的出現(xiàn),數(shù)據(jù)中心架構(gòu)有待轉(zhuǎn)型。在穩(wěn)擁GPU基本盤的基礎(chǔ)之上,英偉達的角色正從圖形顯示和加速計算“偏科學(xué)霸”,轉(zhuǎn)向圍繞數(shù)據(jù)中心三大芯片支柱全面發(fā)展。

黃仁勛認為,數(shù)據(jù)中心正在轉(zhuǎn)變成“AI工廠”,它通過處理海量的數(shù)據(jù)來實現(xiàn)智能,而今日推出的H100便是實現(xiàn)企業(yè)AI業(yè)務(wù)加速的引擎。

H100的多項技術(shù)創(chuàng)新,數(shù)據(jù)中心專屬Grace CPU超級芯片的特殊設(shè)計,以及AI和Omniverse平臺的持續(xù)升級,進一步擴大了英偉達在加速AI訓(xùn)練及推理領(lǐng)域的領(lǐng)導(dǎo)地位。

在為期4天的英偉達GTC大會上,我們還將看到更多不同細分領(lǐng)域的專家,分享他們?nèi)绾卫肁I和加速計算領(lǐng)域的技術(shù)創(chuàng)新,來開展各類開創(chuàng)性的研究或解決正面臨的挑戰(zhàn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。