文|芯東西 ZeR0
編輯|漠影
芯東西9月21日?qǐng)?bào)道,昨夜,NVIDIA(英偉達(dá))推出新一代GeForce RTX 40系列顯卡。
作為全球首款基于全新NVIDIA Ada Lovelace架構(gòu)的GPU,RTX 40系列在性能和效率上都實(shí)現(xiàn)了巨大的代際飛躍。
其中,新旗艦產(chǎn)品RTX 4090 GPU的現(xiàn)代游戲性能相較上一代3090 Ti提升最高可達(dá)2倍,光線追蹤游戲性能的提升最高達(dá)到4倍,開大招DLSS 3后暢玩4K賽博朋克都不在話下。
英偉達(dá)創(chuàng)始人兼CEO黃仁勛在GTC大會(huì)主題演講的GeForce Beyond特別直播上介紹道,這意味著實(shí)時(shí)光線追蹤和利用AI生成像素的神經(jīng)網(wǎng)絡(luò)渲染的新時(shí)代已然來(lái)臨。
首發(fā)的40系列有三款。旗艦產(chǎn)品RTX 4090 24GB將于10月12日上市,建議零售價(jià)12999元起。RTX 4080 16GB、RTX 4080 12GB將于11月上市,建議零售價(jià)分別為9499元起和7199元起。
相比之下,RTX 3090首發(fā)價(jià)是11999元起,RTX 3090 Ti首發(fā)價(jià)是14999元起,一臺(tái)頂配iPhone 14 Pro Max首發(fā)價(jià)是13499元。
這么一看,RTX 4090的性價(jià)比“真香”。
華碩、七彩虹、耕升、影馳、技嘉、映眾、微星和索泰等頂級(jí)顯卡供應(yīng)商將在中國(guó)推出GeForce RTX 4090和4080 GPU標(biāo)頻版和超頻版。RTX 40系列GPU還會(huì)通過(guò)宏碁、外星人、華碩、戴爾、惠普、聯(lián)想、微星等全球領(lǐng)先OEM的產(chǎn)品出售。
NVIDIA還將限量推出RTX 4090和RTX 4080(16GB)FE版,以滿足粉絲需求。
這些還只是GTC主題演講的“前菜”,同樣利用Ada Lovelace架構(gòu),英偉達(dá)面向自動(dòng)駕駛計(jì)算推出了超級(jí)芯片DRIVE Thor,算力較上一代DRIVE Orin翻倍,浮點(diǎn)性能達(dá)2000 TFLOPS。
專為元宇宙應(yīng)用打造的OVX計(jì)算機(jī)也升級(jí)至第二代,搭載了新Ada Lovelace L40數(shù)據(jù)中心GPU。
還有新款微型機(jī)器人計(jì)算機(jī)Jetson Orin Nano,速度比上一代Jetson Nano快了80倍。
此外,英偉達(dá)在今年4月面向數(shù)據(jù)中心發(fā)布的旗艦計(jì)算產(chǎn)品H100 GPU同樣迎來(lái)關(guān)鍵進(jìn)展——全面投產(chǎn)。
面向元宇宙應(yīng)用,英偉達(dá)還首次通過(guò)云服務(wù)進(jìn)一步拓展其平臺(tái)的覆蓋范圍——發(fā)布英偉達(dá)首款軟件和基礎(chǔ)設(shè)施即服務(wù)(IaaS)產(chǎn)品Omniverse Cloud,為元宇宙應(yīng)用的設(shè)計(jì)、發(fā)布、運(yùn)營(yíng)和體驗(yàn)提供全面的云服務(wù)。
01 40系顯卡秒全場(chǎng),臺(tái)積電定制版4N工藝
在將近25年前,英偉達(dá)推出了可編程著色GPU,GPU徹底改變3D圖形。
2018年,在全球計(jì)算機(jī)圖形圖像頂會(huì)SIGGRAPH上,英偉達(dá)推出全新GPU架構(gòu)NVIDIA RTX,通過(guò)兩個(gè)全新處理器來(lái)擴(kuò)展可編程著色器——RT Core用于加速實(shí)時(shí)光線追蹤,Tensor Core用于處理矩陣運(yùn)算、加速AI。
今天,英偉達(dá)憋了4年的大招——第三代RTX架構(gòu)Ada Lovelace,終于正式登場(chǎng)!
這代RTX以數(shù)學(xué)家Ada Lovelace的名字命名,她被公認(rèn)為世界上第一位計(jì)算機(jī)程序員。
據(jù)介紹,Ada GPU可實(shí)現(xiàn)2倍的傳統(tǒng)光柵化游戲性能提升,對(duì)光線追蹤游戲的性能提升可以高達(dá)4倍。相較上一代Ampere架構(gòu),Ada在相同功耗下可帶來(lái)超過(guò)2倍的性能提升。
“Ada正在為完全基于仿真的未來(lái)游戲鋪路?!秉S仁勛說(shuō)。
今天英偉達(dá)推出的基于Ada Lovelace架構(gòu)的GPU有三款:GeForce RTX 4090提供24GB版本,GeForce RTX 4080提供16GB和12GB版本。
GeForce RTX 4090 GPU是全新GeForce RTX 40系列的旗艦產(chǎn)品,是全球首款基于全新NVIDIA Ada Lovelace架構(gòu)的游戲GPU。
RTX 4090擁有760億個(gè)晶體管、16384個(gè)CUDA核心和24 GB高速美光GDDR6X顯存,在4K分辨率的游戲中持續(xù)以超過(guò)100 FPS運(yùn)行,在功耗、靜音、散熱等方面的提升都非常顯著。
在完整的光線追蹤游戲中,與前一代采用DLSS 2的旗艦GPU RTX 3090 Ti相比,采用DLSS 3的RTX 4090的性能提升可達(dá)4倍。
在現(xiàn)代游戲中,RTX 4090的性能提升高達(dá)2倍,同時(shí)保持了跟RTX 3090 Ti相同的450W功耗。
實(shí)現(xiàn)性能飆升的一個(gè)關(guān)鍵,是Ada引入了全新的NVIDIA DLSS 3超分辨率技術(shù)。該功能可在不影響畫質(zhì)和響應(yīng)速度的前提下,使用低分辨率內(nèi)容作為輸入,并運(yùn)用AI技術(shù)創(chuàng)造更多高質(zhì)量幀。
黃仁勛說(shuō),玩像《賽博朋克2077》這樣的現(xiàn)代光線追蹤游戲,需對(duì)每個(gè)像素執(zhí)行超過(guò)600次光線追蹤計(jì)算來(lái)確定光照,與4年前推出的首批光線追蹤游戲相比提升高達(dá)16倍。但GPU中負(fù)責(zé)此類計(jì)算的晶體管數(shù)量并沒有以同比增加,借助AI,英偉達(dá)在4年內(nèi)將性能提升了16倍。
無(wú)論是對(duì)GPU性能要求較高的游戲,還是受到CPU限制的游戲,都將從該技術(shù)中受益。3D藝術(shù)家無(wú)需代理就可以利用精確的物理學(xué)和逼真的材料渲染完整的光線追蹤環(huán)境,并實(shí)時(shí)查看效果。
兩款次旗艦RTX 4080的配置則明顯跟RTX 4090拉開了差距。
RTX 4080 16GB擁有9728個(gè)CUDA核心和16 GB高速美光GDDR6X顯存,在現(xiàn)代游戲中的性能可達(dá)GeForce RTX 3080 Ti的2倍;在較低功率下,性能比GeForce RTX 3090 Ti更強(qiáng)。
RTX 4080 12GB擁有7680個(gè)CUDA核心和12GB 美光 GDDR6X顯存,性能跟3090 Ti同級(jí)。
02 7大技術(shù)創(chuàng)新,帶飛RTX 40系列性能
這次RTX 40系列GPU的性能大幅提升,背后有一系列技術(shù)創(chuàng)新的支撐。
1、架構(gòu)上的改進(jìn):英偉達(dá)與臺(tái)積電合作創(chuàng)建了針對(duì)GPU優(yōu)化的4N定制工藝,使RTX 40系列能夠集成760億個(gè)晶體管、超過(guò)18000個(gè)CUDA核心,較上一代Ampere多了70%,性能功耗比提升高達(dá)2倍。
2、SM流式多處理器:具有高達(dá)90 TFLOPS的著色器能力,吞吐量超過(guò)上一代產(chǎn)品2倍。
3、著色器執(zhí)行重排序(SER):通過(guò)即時(shí)重新安排著色器負(fù)載來(lái)提高執(zhí)行效率,從而更好地利用GPU資源。該技術(shù)可以實(shí)時(shí)重新調(diào)度任務(wù),被黃仁勛稱作是“與CPU的亂序執(zhí)行一樣的重大創(chuàng)新”,可將光線追蹤性能提升2-3倍,整體游戲性能提升25%。
4、第三代RT Cores:有效光線追蹤計(jì)算能力達(dá)到191 TFLOPS,是上一代產(chǎn)品2.8倍。
第三代RT Cores可提供2倍的光線與三角形求交性能,及兩個(gè)全新的重要硬件單元。Opacity Micromap引擎將光線追蹤的Alpha-Test幾何性能提升2倍;Micro-Mesh引擎可動(dòng)態(tài)生成微網(wǎng)格,以產(chǎn)生額外的幾何圖形,可在提升幾何圖形豐富度的同時(shí),不以傳統(tǒng)復(fù)雜幾何圖形處理的性能和存儲(chǔ)成本為代價(jià)。
5、第四代Tensor Cores:新增Hopper FP8 Transformer Engine,F(xiàn)P8張量處理性能高達(dá)1.4 Petaflops,超過(guò)上一代使用FP8加速性能的5倍。
6、Ada光流加速器:帶來(lái)2倍的性能提升,使DLSS 3能夠預(yù)測(cè)場(chǎng)景中的運(yùn)動(dòng),使神經(jīng)網(wǎng)絡(luò)能夠在保持圖像質(zhì)量的同時(shí)提高幀率。
7、雙NVIDIA編碼器(NVENC)將輸出時(shí)間至多縮短一半,并支持AV1。OBS、Blackmagic Design DaVinci Resolve、Discord以及更多的公司都已在采用NVENC AV1編碼器。
03 2000 TFLOPS,最強(qiáng)自動(dòng)駕駛超級(jí)芯片來(lái)了
在推出新一代自動(dòng)駕駛芯片前,黃仁勛照例先回顧了一遍戰(zhàn)績(jī):英偉達(dá)在2018年推出的Xavier是世界上第一款專為深度學(xué)習(xí)設(shè)計(jì)的機(jī)器人處理器,此后每隔兩年,英偉達(dá)就會(huì)發(fā)布性能飛躍的新一代處理器。去年,英偉達(dá)發(fā)布的Altan更是將峰值性能拉到了1000 TOPS。
今天,黃仁勛放出新的大招——NVIDIA DRIVE Thor的吞吐量達(dá)到Atlan的2倍,整型峰值性能可達(dá)2000 TOPS,F(xiàn)P8精度的峰值性能可達(dá)到2000 TFLOPS,同時(shí)降低整體系統(tǒng)成本,目標(biāo)是汽車制造商的2025年車型。
實(shí)現(xiàn)這一目標(biāo),得益于三個(gè)因素:Grace CPU、Hopper GPU和Ada Lovelace GPU。Hopper集成的Transformer引擎有助于加速計(jì)算,Ada中多實(shí)例GPU的發(fā)明將有助于車載計(jì)算資源的集中化,可將成本降低數(shù)百美元。
Thor可配置為多種模式,可將其算力全部用于自動(dòng)駕駛工作流,或者將其中一部分用于駕駛艙AI和信息娛樂(lè),另一部分用于駕駛員輔助。
Thor的多計(jì)算域隔離,使其允許并發(fā)的、對(duì)時(shí)間敏感的多進(jìn)程無(wú)中斷運(yùn)行。車輛可以在一臺(tái)計(jì)算機(jī)上,同時(shí)運(yùn)行Linux、QNX和Android。
當(dāng)前汽車的停車、主動(dòng)安全、駕駛員監(jiān)控、攝像頭鏡像、集群、信息娛樂(lè)等功能由不同的計(jì)算設(shè)備控制,未來(lái)這些功能可以統(tǒng)一由Thor支撐。
兩個(gè)DRIVE Thor還能利用最新的NVLink-C2C芯片互連技術(shù)“拼接”成一塊功能更強(qiáng)的芯片,作為運(yùn)行單個(gè)操作系統(tǒng)的整體平臺(tái)。
回到英偉達(dá)第二代機(jī)器人處理器DRIVE Orin上,Orin已經(jīng)被40多家汽車、卡車、無(wú)人駕駛出租車和穿梭巴士的制造公司采用。自動(dòng)駕駛汽車的基本處理流水線可應(yīng)用于各種機(jī)器人系統(tǒng)。
Jetson系列是英偉達(dá)打造的機(jī)器人計(jì)算機(jī),擁有100萬(wàn)開發(fā)者,在本屆GTC大會(huì)上,黃仁勛宣布推出一款微型機(jī)器人計(jì)算機(jī)Jetson Orin Nano,速度比上一代Jetson Nano快了80倍。
有移動(dòng)的機(jī)器人,也有觀察移動(dòng)物體的機(jī)器人系統(tǒng)。英偉達(dá)邊緣AI平臺(tái)Metropolis的下載量已達(dá)100萬(wàn)次,在全球擁有1000多家應(yīng)用合作伙伴。Orin還是Metropolis運(yùn)行所在的工業(yè)級(jí)IGX Edge AI平臺(tái)的機(jī)器人處理器。
全球大型工業(yè)自動(dòng)化公司西門子將Metropolis和Orin IGX用于其工業(yè)邊緣計(jì)算平臺(tái)。
除了機(jī)器人開發(fā)外,Orin IGX也是醫(yī)療影像應(yīng)用的理想計(jì)算平臺(tái)。在Orin IGX上運(yùn)行的NVIDIA Clara Holoscan是一個(gè)低延遲的成像處理平臺(tái),包含用于數(shù)據(jù)處理、AI模型訓(xùn)練、仿真和機(jī)器人開發(fā)應(yīng)用的庫(kù)。70多家領(lǐng)先的醫(yī)療設(shè)備公司、創(chuàng)企及醫(yī)療中心都在Clara Holoscan上進(jìn)行開發(fā)。
Activ Surgical、Proximie和Moon Surgical將在運(yùn)行于Orin IGX平臺(tái)的NVIDIA Clara Holoscan上構(gòu)建其手術(shù)機(jī)器人系統(tǒng)。
04 劍指元宇宙:第二代OVX計(jì)算機(jī)升級(jí)Ada架構(gòu),推出首款I(lǐng)aas云服務(wù)
面向元宇宙應(yīng)用,黃仁勛宣布推出第二代OVX計(jì)算機(jī),由全新Ada Lovelace L40數(shù)據(jù)中心GPU和增強(qiáng)的網(wǎng)絡(luò)技術(shù)提供支持,以提供突破性的實(shí)時(shí)圖形、AI和數(shù)字孿生模擬功能。
借助48GB超大幀緩沖區(qū),擁有8個(gè)L40 GPU的第二代OVX將能完成超大的Omniverse虛擬世界仿真。L40 GPU已全面進(jìn)入量產(chǎn)。第二代OVX系統(tǒng)將于明年年初向市場(chǎng)提供。
除了元宇宙專屬硬件外,英偉達(dá)還打造了其首款I(lǐng)aaS產(chǎn)品Omniverse Cloud服務(wù),可連接在云、本地或設(shè)備上運(yùn)行的Omniverse應(yīng)用。個(gè)人或團(tuán)隊(duì)可以借助該服務(wù)一鍵體驗(yàn)設(shè)計(jì)和協(xié)作3D工作流程的能力,而無(wú)需任何本地計(jì)算能力。
新的Omniverse容器現(xiàn)已可用于云部署,包括用于生成合成數(shù)據(jù)的Replicator、用于擴(kuò)展渲染農(nóng)場(chǎng)的Farm、用于構(gòu)建和訓(xùn)練AI機(jī)器人的Isaac Sim等。
英偉達(dá)為自主移動(dòng)機(jī)器人打造的Isaac平臺(tái)進(jìn)入云端后,用戶可在NGC上獲取云就緒的Omniverse VMI虛擬機(jī)鏡像和Isaac容器,并將其部署到任何公有云上。
05 從云端到超算,H100全面投產(chǎn)
最后,我們來(lái)看一下面向數(shù)據(jù)中心和高性能計(jì)算的加速計(jì)算最新進(jìn)展。
黃仁勛說(shuō),NVIDIA平臺(tái)現(xiàn)已擁有350萬(wàn)名開發(fā)者,12000家創(chuàng)企正基于英偉達(dá)的產(chǎn)品開創(chuàng)新業(yè)務(wù),英偉達(dá)通過(guò)550個(gè)SDK和AI模型為約3000個(gè)應(yīng)用提供加速?!翱傮w來(lái)說(shuō),我們所服務(wù)的各行業(yè)總價(jià)值約為100萬(wàn)億美元?!?/p>
面向數(shù)據(jù)中心,英偉達(dá)在今年4月發(fā)布的最新旗艦產(chǎn)品H100 Tensor Core GPU已經(jīng)進(jìn)入大規(guī)模量產(chǎn)。
H100包含800億個(gè)晶體管,采用了全新Hopper架構(gòu)、Transformer引擎、第二代多實(shí)例GPU、機(jī)密計(jì)算、第四代NVIDIA NVLink互連、DPX指令等多種創(chuàng)新技術(shù),能夠被用于加速高級(jí)推薦系統(tǒng)、大型語(yǔ)言模型等超大規(guī)模的AI模型訓(xùn)練。
據(jù)介紹,H100使企業(yè)能夠削減AI的部署成本,相較于上一代A100,在提供相同AI性能的情況下,可將能效提高3.5倍,總體擁有成本減少至1/3,所使用的服務(wù)器節(jié)點(diǎn)數(shù)也減少至1/5。
英偉達(dá)全球技術(shù)合作伙伴計(jì)劃于10月推出首批基于NVIDIA Hopper架構(gòu)的產(chǎn)品和服務(wù),到今年年底預(yù)計(jì)將有超過(guò)50款服務(wù)器型號(hào)面市,2023年上半年還將有數(shù)十款型號(hào)面市。
AWS、谷歌云、微軟Azure、Oracle Cloud Infrastructure將從明年開始率先在云端部署基于H100的實(shí)例。數(shù)家全球領(lǐng)先的高等教育和研究機(jī)構(gòu)的新一代超級(jí)計(jì)算機(jī)也將采用H100。
DGX H100系統(tǒng)現(xiàn)在即可訂購(gòu)。該系統(tǒng)FP8精度的峰值性能可達(dá)到32 PFlops。每個(gè)DGX系統(tǒng)都包含NVIDIA Base Command和NVIDIA AI Enterprise軟件,可實(shí)現(xiàn)從單一節(jié)點(diǎn)到NVIDIA DGX SuperPOD的集群部署。
在軟件支持上,H100現(xiàn)包含為期五年的NVIDIA AI Enterprise軟件套件許可,這將優(yōu)化AI工作流程的開發(fā)部署,確保用戶可獲得構(gòu)建AI聊天機(jī)器人、推薦引擎、視覺AI等所需的AI框架和工具。
一些全球領(lǐng)先的大型語(yǔ)言模型和深度學(xué)習(xí)框架正在H100上進(jìn)行優(yōu)化,這些框架與Hopper架構(gòu)相結(jié)合,能夠顯著提升AI性能,將大型語(yǔ)言模型的訓(xùn)練時(shí)間縮短到幾天乃至幾小時(shí)。
06 推出兩種大型語(yǔ)言模型云服務(wù),助攻生物醫(yī)學(xué)研究
大型語(yǔ)言模型(LLM)是當(dāng)今最重要的AI模型之一。借助LLM,用戶只需通過(guò)較少的樣本來(lái)精調(diào)模型,就能高效執(zhí)行特定任務(wù)。Hopper架構(gòu)則有助于降低LLM的訓(xùn)練及部署門檻。
今天,英偉達(dá)推出Nemo LLM云服務(wù),用于訓(xùn)練大型語(yǔ)言模型。
Nemo包含社區(qū)構(gòu)建的一系列預(yù)訓(xùn)練基礎(chǔ)模型,其API可生成習(xí)得的提示embedding表和優(yōu)化的微服務(wù),可部署在本地、云中,適用于一個(gè)GPU或者多個(gè)GPU、多個(gè)節(jié)點(diǎn)。現(xiàn)在注冊(cè),10月就能搶先體驗(yàn)這項(xiàng)服務(wù)。
英偉達(dá)還推出了BioNeMo LLM服務(wù),用于訓(xùn)練和部署超算規(guī)模的大型生物分子語(yǔ)言模型。
領(lǐng)先的制藥公司、生物技術(shù)初創(chuàng)企業(yè)和前沿生物研究人員正在使用BioNeMo LLM服務(wù)和框架來(lái)開發(fā)用于生成、預(yù)測(cè)和理解生物分子數(shù)據(jù)的AI應(yīng)用,從而更好地了解疾病,并找到治療方法。
NVIDIA BioNeMo LLM服務(wù)將提供4個(gè)預(yù)訓(xùn)練語(yǔ)言模型:
1、ESM-1:這一最初由Meta AI Labs發(fā)布的蛋白質(zhì)LLM能夠處理氨基酸序列,最終生成用于預(yù)測(cè)各種蛋白質(zhì)特性和功能的表征。它還提高了科學(xué)家理解蛋白質(zhì)結(jié)構(gòu)的能力。
2、OpenFold:這是由學(xué)術(shù)界和產(chǎn)業(yè)界共同成立的Openfold聯(lián)盟創(chuàng)建的sota蛋白質(zhì)建模工具,可通過(guò)BioNeMo服務(wù)提供其開源AI工作流程。
3、MegaMolBART:這一基于14億分子訓(xùn)練而成的生成式化學(xué)模型可用于反應(yīng)預(yù)測(cè)、分子優(yōu)化和新分子的生成。
4、ProtT5:該模型是在慕尼黑工業(yè)大學(xué)RostLab的帶領(lǐng)下合作開發(fā)的,NVIDIA也是該項(xiàng)目的參與者之一。PortT5將ESM-1b等蛋白質(zhì)LLM的功能擴(kuò)展到序列生成。
這些模型針對(duì)推理進(jìn)行了優(yōu)化,并將通過(guò)NVIDIA DGX Foundry上運(yùn)行的云端API提供搶先體驗(yàn)。
07 結(jié)語(yǔ):英偉達(dá)已成為一家全棧式計(jì)算公司
英偉達(dá)在1999年發(fā)明的GPU,激發(fā)PC游戲市場(chǎng)的增長(zhǎng)、重新定義了計(jì)算機(jī)顯卡并助燃了現(xiàn)代AI普及的浪潮。此次新推出的Ada Lovelace一代GPU,改進(jìn)了作為神經(jīng)渲染引擎的全部三個(gè)RTX處理器,對(duì)于游戲玩家、虛擬世界創(chuàng)作者都帶來(lái)了新的生產(chǎn)力工具。
可以看到,如今的英偉達(dá)已發(fā)展成為一家全棧式計(jì)算公司,無(wú)論是加速計(jì)算,還是計(jì)算機(jī)圖形,都通過(guò)在架構(gòu)、設(shè)計(jì)和算法方面進(jìn)行創(chuàng)新疊加來(lái)實(shí)現(xiàn)性能的突破。與此同時(shí),AI技術(shù)已經(jīng)滲透到英偉達(dá)產(chǎn)品的各個(gè)角落,用于與更多技術(shù)創(chuàng)新的結(jié)合,推動(dòng)科學(xué)及工業(yè)領(lǐng)域更多AI新應(yīng)用的突破,并為數(shù)字經(jīng)濟(jì)發(fā)展提供動(dòng)力。