文|芯東西 ZeR0 程茜
編輯|漠影
芯東西3月22日報道,全球AI計算技術(shù)盛會、一年一度的英偉達GTC大會如期而至!
英偉達CEO黃仁勛(昵稱“老黃”)一如既往穿著標志性的皮衣進行了78分鐘演講,滿面笑容地分享英偉達又悶聲干了哪些大事。
總體來看,此次演講可總結(jié)成一大「亮點」和一大「重點」。
「亮點」是英偉達秘密研發(fā)四年、向芯片制造業(yè)甩出一枚技術(shù)“核彈”——通過突破性的光刻計算庫cuLitho,將計算光刻加速40倍以上,使得2nm及更先進芯片的生產(chǎn)成為可能。全球最大晶圓廠臺積電、全球光刻機霸主阿斯麥、全球最大EDA巨頭新思科技均參與合作并引入這項技術(shù)。
老黃還直接上了一堂光刻機小課堂,配合動畫講解芯片制造的最關(guān)鍵設(shè)備光刻機是如何運作的。
「重點」毫無疑問是生成式AI。
老黃對OpenAI的ChatGPT贊不絕口,夸它“震驚世界”,代表著“嶄新的計算平臺已經(jīng)誕生,AI的「iPhone時刻」已經(jīng)到來”。
據(jù)英偉達透露,OpenAI將在微軟Azure超級計算機上使用英偉達H100 GPU,AI文生圖明星創(chuàng)企Stability.ai是H100 GPU的早期訪問客戶。
為了加速生成式AI開發(fā)及部署,老黃宣布推出3款全新推理GPU,分別擅長AI視頻、圖像生成、ChatGPT等大型語言模型的推理加速。
此外,英偉達還發(fā)布了AI超級計算服務(wù)DGX Cloud、加速企業(yè)創(chuàng)建大模型和生成式AI的云服務(wù)NVIDIA AI Foundations等,并宣布與日本三菱聯(lián)合打造了日本第一臺用于加速藥研的生成式AI超級計算機。
英偉達也發(fā)布了一系列面向元宇宙、汽車、量子計算領(lǐng)域的新進展,包括PaaS服務(wù)NVIDIA Omniverse Cloud現(xiàn)已向特定企業(yè)開放、與寶馬集團擴大合作建設(shè)虛擬工廠、比亞迪更多車型將采用NVIDIA DRIVE Orin平臺,以及與Quantum Machines合作推出了全球首個GPU加速量子計算系統(tǒng)。
老黃宣布,英偉達已經(jīng)更新了100個加速庫,目前英偉達全球生態(tài)系統(tǒng)已覆蓋400萬開發(fā)人員、4萬家公司和1.4萬家初創(chuàng)公司。
01.芯片制造炸場!將計算光刻提速40倍,三大半導(dǎo)體巨頭站臺
我們先來看看今天的“驚喜彈”:英偉達發(fā)布了一個造福先進芯片制造的突破性技術(shù)——NVIDIA cuLitho計算光刻庫。
光刻是芯片制造過程中最復(fù)雜、最昂貴、最關(guān)鍵的環(huán)節(jié),其成本約占整個硅片加工成本的1/3甚至更多。計算光刻模擬了光通過光學(xué)元件并與光刻膠相互作用時的行為,應(yīng)用逆物理算法來預(yù)測掩膜板上的圖案,以便在晶圓上生成最終圖案。
簡而言之,計算光刻是提高光刻分辨率、推動芯片制造達到2nm及更先進節(jié)點的關(guān)鍵手段。
“計算光刻是芯片設(shè)計和制造領(lǐng)域中最大的計算工作負載,每年消耗數(shù)百億CPU小時。”黃仁勛講解道,“大型數(shù)據(jù)中心24x7全天候運行,以便創(chuàng)建用于光刻系統(tǒng)的掩膜板。這些數(shù)據(jù)中心是芯片制造商每年投資近2000億美元的資本支出的一部分?!?/p>
而cuLitho能夠?qū)⒂嬎愎饪痰乃俣忍岣叩皆瓉淼?0倍。老黃說,英偉達H100 GPU需要89塊掩膜板,在CPU上運行時,處理單個掩膜板需要兩周時間,而在GPU上運行cuLitho只需8小時。
此外,臺積電可通過在500個DGX H100系統(tǒng)上使用cuLitho加速,將功率從35MW降至5MW,替代此前用于計算光刻的40000臺CPU服務(wù)器。使用cuLitho的晶圓廠,每天可以生產(chǎn)3-5倍多的光掩膜,僅使用當前配置電力的1/9。
全球最大晶圓廠臺積電、全球最大光刻機制造商阿斯麥(ASML)、全球最大EDA公司新思科技(Synopsys)都為這項新技術(shù)站臺。老黃透露道,cuLitho歷時四年研發(fā),與這三家芯片大廠進行了密切合作。臺積電將于6月開始對cuLitho進行生產(chǎn)資格認證。
臺積電CEO魏哲家夸贊它為臺積電在芯片制造中廣泛地部署光刻解決方案開辟了新的可能性,為半導(dǎo)體規(guī)?;龀鲋匾暙I。阿斯麥CEO Peter Wennink說阿斯麥計劃將對GPU的支持集成到其所有的計算光刻軟件產(chǎn)品中。
新思科技董事長兼CEO Aart de Geus稱,在英偉達的cuLitho平臺上運行新思科技的光學(xué)鄰近校正(OPC)軟件,將性能從幾周加速到幾天。
cuLitho將有助于晶圓廠縮短原型周期時間、提高產(chǎn)量、減少碳排放,為2nm及更先進的工藝奠定基礎(chǔ),并使得曲線掩模、high NA EUV、亞原子級光刻膠模型等新技術(shù)節(jié)點所需的新型解決方案和創(chuàng)新技術(shù)成為可能。
02.發(fā)布ChatGPT專用推理GPU,登瀏覽器即可訪問AI超級計算機
圍繞生成式AI,英偉達發(fā)布了一系列加速模型訓(xùn)練和推理的軟硬件新品及服務(wù)。
老黃首先講述了英偉達在生成式AI革命之初是如何進入AI領(lǐng)域的。
“英偉達加速計算始于DGX(AI超級計算機),這是大型語言模型實現(xiàn)突破背后的引擎?!彼劦?,“(2016年)我親手將全球首款DGX交給了OpenAI,自此以后,《財富》100強企業(yè)中有一半安裝了DGX AI超級計算機。DGX已成為AI領(lǐng)域的必備工具?!?/p>
“生成式AI將重塑幾乎所有行業(yè)?!崩宵S說,ChatGPT、Stable Diffusion、DALL-E和Midjourney喚醒了世界對生成式AI的認知。
在他看來,生成式AI是一種新型計算機、一種可以用人類語言進行編程的計算機,與個人電腦(PC)、互聯(lián)網(wǎng)、移動設(shè)備和云類似,這種能力影響深遠,每個人都可以命令計算機來解決問題,現(xiàn)在每個人都可以是程序員。
1、訓(xùn)練:生成式AI明星企業(yè)都在用,AI超級計算機已全面投產(chǎn)
訓(xùn)練方面,英偉達H100 GPU基于Hopper架構(gòu)及其內(nèi)置Transformer Engine,針對生成式AI、大型語言模型和推薦系統(tǒng)的開發(fā)、訓(xùn)練和部署進行了優(yōu)化,利用FP8精度在大型語言模型上比上一代A100提供了快9倍的AI訓(xùn)練和快30倍的AI推理。
DGX H100擁有8個H100 GPU模組,在FP8精度下可提供32PetaFLOPS的算力,并提供完整的英偉達AI軟件堆棧,助力簡化AI開發(fā)。黃仁勛宣布,NVIDIA DGX H100 AI超級計算機已全面投入生產(chǎn),很快將面向全球企業(yè)。微軟宣布Azure將向其H100 AI超級計算機開放私人預(yù)覽版。
黃仁勛說,云計算巨頭現(xiàn)在正在提供英偉達H100 GPU,生成式AI領(lǐng)域的多家明星企業(yè)都在用H100加速工作。
比如,OpenAI用H100的上一代A100訓(xùn)練和運行AI聊天機器人ChatGPT,并將在微軟Azure超級計算機上使用H100;AI文生圖明星創(chuàng)企Stability.ai是AWS上的H100早期訪問客戶。
最近剛推出開源大模型的社交軟件巨頭Meta開發(fā)了基于Hopper架構(gòu)的AI超級計算機Grand Teton系統(tǒng)。相比其前代Zion,該系統(tǒng)的算力大幅提升,可同時支持推薦模型和內(nèi)容理解的訓(xùn)練和推理。
英偉達與其主要合作伙伴宣布推出強大的GPU NVIDIA H100 Tensor Core GPU新產(chǎn)品和服務(wù),以滿足生成式AI訓(xùn)練和推理需求。
AWS宣布即將推出的EC2超級集群(EC2 P5實例)可擴展至20000個互連的H100。Oracle Cloud Infrastructure(OCI)宣布限量推出采用H100的全新OCI Compute裸金屬GPU實例。
為企業(yè)和開發(fā)者提供多模態(tài)視頻理解的平臺Twelve Labs計劃在OCI Supercluster上使用H100實例來即時、智能和容易搜索視頻。
2、推理:發(fā)布3款GPU、3類云服務(wù)
推理方面,英偉達推出全新GPU推理平臺:4種配置(L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超級芯片)、一個體系架構(gòu)、一個軟件棧,分別用于加速AI視頻、圖像生成、大型語言模型部署和推薦系統(tǒng)。
(1)L4:針對AI視頻設(shè)計的通用GPU,可提供比CPU高120倍的AI視頻性能,能效提高99%;優(yōu)化了視頻解碼與轉(zhuǎn)碼、視頻內(nèi)容審核、視頻通話等功能,如背景替換、重新打光、眼神交流、轉(zhuǎn)錄和實時翻譯等。一臺8-GPU L4服務(wù)器將取代100多臺用于處理AI視頻的雙插槽CPU服務(wù)器。
(2)L40:用于圖像生成,針對圖形和AI支持的2D、視頻和3D圖像生成進行了優(yōu)化,推理性能是英偉達最受歡迎的云推理GPU T4的10倍。
(3)H100 NVL:針對ChatGPT等大型語言模型的大規(guī)模部署,配備雙GPU NVLink,將兩張擁有94GB HBM3顯存的PCIe H100 GPU拼接在一起,可處理擁有1750億參數(shù)的GPT-3大模型,同時支持商用PCIe服務(wù)器輕松擴展。
老黃說,目前在云上唯一可以實際處理ChatGPT的GPU是HGX A100。與適用于GPT-3處理的HGX A100相比,一臺搭載4對H100及雙GPU NVLink的標準服務(wù)器的速度要快10倍,H100可將大型語言模型的處理成本降低一個數(shù)量級。
(4)Grace Hopper超級芯片:適用于推薦系統(tǒng)和大型語言模型的AI數(shù)據(jù)庫,圖推薦模型、向量數(shù)據(jù)庫和圖神經(jīng)網(wǎng)絡(luò)的理想選擇,通過900GB/s的高速一致性芯片到芯片接口連接英偉達Grace CPU和Hopper GPU。
谷歌云是第一個向客戶提供英偉達L4推理GPU的云服務(wù)提供商。谷歌還將L4集成到其Vertex AI模型商店中。
3、云服務(wù):登瀏覽器即可訪問AI超級計算機
英偉達推出了一項名為DGX Cloud的AI超級計算服務(wù),與微軟Azure、谷歌OCP、Oracle OCI合作,通過一個Web瀏覽器就能訪問,以便企業(yè)為生成式AI和其他開創(chuàng)性應(yīng)用訓(xùn)練先進的模型。
DGX Cloud實例的起價為每個實例每月36999美元。其每個實例都具有8個NVIDIA H100或A100 80GB Tensor Core GPU,每個節(jié)點共有640GB的GPU內(nèi)存。DGX Cloud提供了專用的NVIDIA DGX AI超級計算集群,并配備了NVIDIA AI軟件。
英偉達還推出了全新云服務(wù)及代工廠NVIDIA AI Foundations,使企業(yè)能夠構(gòu)建、改進、運營使用其專有數(shù)據(jù)訓(xùn)練的、用于特定領(lǐng)域任務(wù)的定制大模型和生成式AI模型:
(1)NeMo:文本生成模型構(gòu)建服務(wù),提供從80億到5300億個參數(shù)的模型,會定期更新額外的訓(xùn)練數(shù)據(jù),幫助企業(yè)為客服、企業(yè)搜索、聊天機器人、市場情報等生成式AI應(yīng)用進行模型定制。
(2)Picasso:視覺語言模型構(gòu)建服務(wù),具有先進的文生圖、文本轉(zhuǎn)視頻、文本轉(zhuǎn)3D功能,可為產(chǎn)品設(shè)計、數(shù)字孿生、角色創(chuàng)建等使用自然文本提示的應(yīng)用快速創(chuàng)建和定制視覺內(nèi)容。
(3)BioNeMo:生命科學(xué)服務(wù),提供AI模型訓(xùn)練和推理,加速藥物研發(fā)中最耗時和成本最高的階段,可加速新蛋白質(zhì)和治療方法的創(chuàng)建以及基因組學(xué)、化學(xué)、生物學(xué)和分子動力學(xué)研究。
直接在瀏覽器上或通過API,均可訪問這些運行在NVIDIA DGX Cloud上的云服務(wù)。NeMo、BioNeMo云服務(wù)已開放早期訪問,Picasso云服務(wù)正在私人預(yù)覽中。
英偉達也宣布了一系列跟生成式AI相關(guān)的合作進展,包括與Adobe合作開發(fā)新一代先進的生成式AI模型;與Getty Images合作訓(xùn)練負責(zé)任的文生圖、文本轉(zhuǎn)視頻基礎(chǔ)模型;與Shutterstock合作,訓(xùn)練從簡單文本提示中創(chuàng)建生成式3D模型,將創(chuàng)作時間從幾小時減少到幾分鐘。
此外,英偉達與三菱聯(lián)合發(fā)布了將用于加速藥物研發(fā)的日本第一臺生成式AI超級計算機Tokyo-1。通過在Tokyo-1上使用NVIDIA BioNeMo軟件,研究人員能運行高達數(shù)十億參數(shù)的先進AI模型,包括蛋白質(zhì)結(jié)構(gòu)預(yù)測、小分子生成、姿態(tài)估計等。
03.BlueField-3 DPU已投產(chǎn),打造全球首個GPU加速量子計算系統(tǒng)
數(shù)據(jù)處理單元(DPU)方面,黃仁勛宣布英偉達BlueField-3 DPU已投入生產(chǎn),并被百度、CoreWeave、京東、微軟Azure、Oracle OCI、騰訊游戲等領(lǐng)先的云服務(wù)提供商所采用,以加速其云計算平臺。
面向量子計算,要從量子噪聲和退相干中恢復(fù)數(shù)據(jù),需要對大量量子比特進行糾錯。對此,英偉達與Quantum Machines合作推出了一個量子控制鏈路,它可將英偉達GPU連接到量子計算機,以極快的速度進行糾錯。
雙方合作研發(fā)的全球首個GPU加速量子計算系統(tǒng)NVIDIA DGX Quantum,將強大的加速計算平臺(由NVIDIA Grace Hopper超級芯片和CUDA量子開源編程模型支持)與全球最先進的量子控制平臺OPX結(jié)合在一起,使研究人員能夠構(gòu)建強大的應(yīng)用,將量子計算與最先進的經(jīng)典計算結(jié)合起來,實現(xiàn)校準、控制、量子糾錯和混合算法。
NVIDIA DGX Quantum的核心是NVIDIA Grace Hopper系統(tǒng),通過PCIe連接到通用量子控制系統(tǒng)Quantum Machines OPX+,實現(xiàn)QPU和量子之間的亞微秒延遲處理單元(QPU)。
DGX Quantum還為開發(fā)人員配備了一款強大的混合GPU-Quantum編程模型NVIDIA CUDA Quantum,可以在一個系統(tǒng)中集成QPU、GPU、CPU并進行編程。多家量子硬件公司將CUDA Quantum集成到他們的平臺中。
美國通信巨頭AT&T宣布與英偉達合作,使用英偉達全套AI平臺改進運營并提高可持續(xù)性。AT&T將使用英偉達AI平臺進行數(shù)據(jù)處理、優(yōu)化服務(wù)排隊、創(chuàng)建員工支持和培訓(xùn)的對話式AI數(shù)字化形象。
04.推出新一代元宇宙服務(wù)器,引入生成式AI和模擬仿真更新
面向元宇宙領(lǐng)域,英偉達推出了第三代OVX計算系統(tǒng)和新一代工作站,為基于NVIDIA Omniverse Enterprise的大規(guī)模數(shù)字孿生提供動力。
第三代OVX服務(wù)器通過組合雙CPU平臺、BlueField-3 DPU、L40 GPU、兩個ConnectX-7 SmartNIC和NVIDIA Spectrum以太網(wǎng)平臺,提供了突破性的圖形和AI性能,可加速大規(guī)模數(shù)字孿生模擬等應(yīng)用,進而提高運營效率和預(yù)測性規(guī)劃功能。
企業(yè)可以利用OVX性能在可視化、虛擬工作站和數(shù)據(jù)中心處理工作流程等方面進行協(xié)作。
此外,新一代NVIDIA RTX工作站RTX 4000 SFF Ada Generation采用英偉達Ada Lovelace GPU、ConnectX-6 Dx SmartNIC和英特爾至強處理器。最新發(fā)布的RTX 5000 Ada一代筆記本電腦GPU使專業(yè)人士能隨時隨地訪問Omniverse和工業(yè)元宇宙工作負載。
黃仁勛還宣布了英偉達用于構(gòu)建和操作元宇宙應(yīng)用的平臺NVIDIA Omniverse的相關(guān)更新,增加了一系列生成式AI、模擬仿真相關(guān)功能,讓開發(fā)者能夠更輕松地部署工業(yè)元宇宙應(yīng)用。
平臺即服務(wù)(PaaS)NVIDIA Omniverse Cloud現(xiàn)已面向特定企業(yè)開放,使企業(yè)能夠在其核心產(chǎn)品和業(yè)務(wù)流程中統(tǒng)一數(shù)字化。
“從大型物理設(shè)施到手持消費品,每一個人造物體都有一天會擁有一個數(shù)字孿生,用來建造、操作和優(yōu)化物體?!秉S仁勛說,“Omniverse Cloud是用于工業(yè)數(shù)字化的從數(shù)字到物理的操作系統(tǒng),它的出現(xiàn)正好趕上了正在建設(shè)的價值數(shù)萬億美元的新電動汽車、電池和芯片工廠?!?/p>
英偉達選擇微軟Azure作為Omniverse Cloud的首個云服務(wù)提供商。由NVIDIA OVX計算系統(tǒng)提供支持的Omniverse Cloud將于今年下半年與微軟Azure一起推出。企業(yè)可訪問Omniverse軟件應(yīng)用程序的全堆棧套件和NVIDIA OVX基礎(chǔ)設(shè)施,并享有Azure云服務(wù)的規(guī)模和安全性。
Azure上Omniverse Cloud的新訂閱服務(wù)使汽車團隊可輕松實現(xiàn)工作流程的數(shù)字化,無論是連接3D設(shè)計工具以加速汽車開發(fā),還是構(gòu)建汽車的數(shù)字孿生工廠或運行閉環(huán)模擬來測試車輛性能。
老黃在演講期間分享了一個視頻,展示亞馬遜如何用英偉達Omniverse平臺構(gòu)建完全逼真的數(shù)字孿生機器人倉庫,以節(jié)省時間和金錢。
英偉達與寶馬集團宣布擴大合作,為汽車制造商開設(shè)了第一個完全虛擬工廠。寶馬集團將英偉達Omniverse平臺用在其全球生產(chǎn)網(wǎng)絡(luò)中構(gòu)建和運行工業(yè)元宇宙應(yīng)用。
此外,英偉達與其合作伙伴發(fā)布了全新的Omniverse Connections,通過通用場景描述(USD)框架連接更多世界更多先進應(yīng)用。
05.結(jié)語:生成式AI引發(fā)了全球企業(yè)緊迫感
“生成式AI正在推動AI的快速應(yīng)用,并重塑無數(shù)行業(yè)?!崩宵S說,“我們正處于AI的「iPhone時刻」,初創(chuàng)公司競相構(gòu)建具有顛覆性的產(chǎn)品和商業(yè)模式,老牌公司則在尋求應(yīng)對之策,生成式AI引發(fā)了全球企業(yè)制定AI戰(zhàn)略的緊迫感?!?/p>
從今日英偉達的一系列軟硬件發(fā)布,可以看到英偉達對先進AI計算的支撐已經(jīng)覆蓋到從GPU、DPU等硬件到幫助企業(yè)加速構(gòu)建定制生成式AI模型的云服務(wù),進而推動釋放人類的創(chuàng)造力。
這已經(jīng)不是老黃第一次“跳預(yù)言家”了。英偉達的加速計算產(chǎn)品可以說是與AI產(chǎn)業(yè)的發(fā)展共生共榮。英偉達不斷為更大規(guī)模的AI模型訓(xùn)練提供更強大的算力基座,對AI訓(xùn)練和推理的前沿發(fā)展起到了重要推動力,蓬勃而生的AI熱潮又為英偉達帶來了更廣闊的市場和機遇。
如今,生成式AI所展現(xiàn)出的商用前景幾乎激勵著每個行業(yè)重新設(shè)想其商業(yè)戰(zhàn)略和實現(xiàn)這些戰(zhàn)略所需的技術(shù)。英偉達正與其合作伙伴迅速行動,為AI應(yīng)用提供更強大的計算平臺,讓更多人從生成式AI等前沿應(yīng)用的變革性力量中受益。