文|雷科技
過(guò)去一年多,硅谷掀起的生成式AI革命席卷全球,并愈演愈烈。而在這場(chǎng)革命有中兩條非常明顯的主線:
一是基礎(chǔ)技術(shù)的進(jìn)化,以GPT、Gemini為代表的大模型繼續(xù)向著AGI(通用人工智能)迭代;
二是現(xiàn)象級(jí)應(yīng)用的涌現(xiàn),生成式AI在不同領(lǐng)域、不同場(chǎng)景下的應(yīng)用狂潮在逐步改變?nèi)祟惖纳詈凸ぷ鞣绞?,比如雷科技尤其關(guān)注的AI硬件領(lǐng)域,就出現(xiàn)了AI手機(jī)、AI PC、AI電視、AI家電、AI清潔等新應(yīng)用。
在兩條主線下,還有一條關(guān)于算力的「暗線」。
對(duì)AI的發(fā)展來(lái)說(shuō),算力短缺已經(jīng)不是一天兩天的問(wèn)題,時(shí)至今日各大公司都還在繼續(xù)搶購(gòu)GPU,更確切地說(shuō),是英偉達(dá)的高端GPU:
如果說(shuō)《沙丘》是「得香料者得天下」,那AI行業(yè)就是「得英偉達(dá)GPU者得天下」。
這也讓整個(gè)行業(yè)對(duì)于英偉達(dá)GPU又愛(ài)又恨,一方面是基于CUDA平臺(tái)的英偉達(dá)高端GPU可以簡(jiǎn)單、高效地進(jìn)行人工智能訓(xùn)練,另一方面是所有人都過(guò)于依賴英偉達(dá)這一家公司。
CUDA是英偉達(dá)AI的基石
關(guān)于英偉達(dá)GPU成功原因的分析已經(jīng)很多了,其核心主要還是英偉達(dá)GPU本身的高性能(包括互連性能),加上CUDA平臺(tái)帶來(lái)的軟硬件協(xié)同效應(yīng)。英偉達(dá)在硬件本身上的優(yōu)勢(shì)并不難逾越,問(wèn)題關(guān)鍵在于軟件,在于CUDA平臺(tái)。
在前段時(shí)間的GTC 2024開(kāi)幕演講上,老黃也回顧了英偉達(dá)的發(fā)展史。
2014年,黃仁勛首次強(qiáng)調(diào)機(jī)器學(xué)習(xí)的重要性,當(dāng)時(shí)AlphaGo尚未戰(zhàn)勝李世石,深度學(xué)習(xí)并未引發(fā)世界級(jí)關(guān)注。不過(guò)當(dāng)時(shí)英偉達(dá)已提出CUDA(通用計(jì)算平臺(tái))的概念,在許多人還在把英偉達(dá)當(dāng)作「游戲顯卡」的制造商時(shí),其走在了AI變革前沿。
不過(guò)最初,CUDA的應(yīng)用場(chǎng)景主要是科學(xué)計(jì)算,就是類似于氣候模擬、物理模擬、生物信息學(xué)等專業(yè)研究,應(yīng)用場(chǎng)景很有價(jià)值,但卻狹窄。正因?yàn)榇耍ミ_(dá)的CUDA一直沒(méi)有打開(kāi)市場(chǎng),帶給英偉達(dá)的回報(bào)無(wú)法與對(duì)應(yīng)的巨量研發(fā)投入匹配。黃仁勛每年都需要向董事會(huì)解釋,為什么英偉達(dá)要堅(jiān)持做CUDA?
其實(shí)當(dāng)時(shí)老黃也不知道,英偉達(dá)的CUDA會(huì)在未來(lái)幾年,先后迎來(lái)區(qū)塊鏈“挖礦”、AI大模型計(jì)算等計(jì)算場(chǎng)景,真實(shí)潑天富貴。
短短兩年時(shí)間,英偉達(dá)通過(guò)H100、H200芯片,締造了萬(wàn)億AI帝國(guó),市值已超越亞馬遜等傳統(tǒng)豪強(qiáng),按照這樣的勢(shì)頭,在可見(jiàn)的未來(lái),超越蘋果、微軟成為世界頭號(hào)巨頭也不是沒(méi)有可能。
在被稱為AI應(yīng)用元年的2024,英偉達(dá)的CUDA(通用計(jì)算平臺(tái))正如其名,變得通用起來(lái),從大語(yǔ)言模型、對(duì)話式AI、邊緣計(jì)算等底層技術(shù),到智能座艙、自動(dòng)駕駛、人形機(jī)器人等應(yīng)用場(chǎng)景,再到AI手機(jī)、AI PC、AI家電、AI搜索、AI繪畫等應(yīng)用,以及未來(lái)的氣候預(yù)測(cè)、計(jì)算光刻與6G網(wǎng)絡(luò),AI正無(wú)處不在,英偉達(dá)的計(jì)算也無(wú)處不在,成為“通用計(jì)算”。
當(dāng)英偉達(dá)的卡以及CUDA平臺(tái)越來(lái)越重要時(shí),其他科技巨頭看到了“制霸”危機(jī):
一方面,英偉達(dá)的卡價(jià)格不菲,且擁有絕對(duì)定價(jià)權(quán),廠商們囤積GPU卡要給英偉達(dá)巨額資金,結(jié)果就是:做AI的不一定賺錢(當(dāng)前幾乎都不賺錢),英偉達(dá)卻賺爆了。
另一方面,英偉達(dá)可以決定最頂尖的卡先給誰(shuí),給多少,給不給。此外,英偉達(dá)也依托GPU的計(jì)算資源向上層業(yè)務(wù)拓展,涉足云等業(yè)務(wù),與科技巨頭形成一定的競(jìng)爭(zhēng)。
事實(shí)上從2023年開(kāi)始,很多芯片廠商和大模型廠商都意識(shí)到了這些問(wèn)題,紛紛希望通過(guò)另建一套軟件平臺(tái)對(duì)抗英偉達(dá)的CUDA。不能說(shuō)所有嘗試都失敗了,只能說(shuō)目前還沒(méi)有出現(xiàn)真正的挑戰(zhàn)者。
如今,一個(gè)新聯(lián)盟和開(kāi)源平臺(tái),可能會(huì)徹底改變英偉達(dá)CUDA一家獨(dú)大的局面——如同當(dāng)初谷歌振臂高呼組建的OHA聯(lián)盟以及開(kāi)源的安卓對(duì)抗蘋果一般。因緣際會(huì)的是,在這一輪打破CUDA霸權(quán)的戰(zhàn)爭(zhēng)中,谷歌依然扮演了至關(guān)重要的角色,安卓陣營(yíng)的高通、ARM們也在發(fā)揮各自的關(guān)鍵作用。
日光之下,無(wú)新事。
巨頭組建聯(lián)盟反抗CUDA
「整個(gè)行業(yè)都希望能干掉CUDA,包括谷歌、OpenAI等公司都在想方設(shè)法讓人工智能訓(xùn)練更加開(kāi)放。我們認(rèn)為CUDA的護(hù)城河既淺又窄?!乖谌ツ昴甑椎囊粓?chǎng)活動(dòng)上,英特爾CEO帕特·基辛格(Pat Gelsinger)語(yǔ)出驚人地指出了對(duì)于英偉達(dá)CUDA平臺(tái)的看法。
但即便基辛格認(rèn)為CUDA的護(hù)城河「既窄又淺」,他也明白挑戰(zhàn)在人工智能訓(xùn)練上挑戰(zhàn)英偉達(dá),絕非易事。
根據(jù)路透社報(bào)道,Linux基金會(huì)聯(lián)合英特爾、谷歌、高通、ARM以及三星等公司成立了統(tǒng)一加速基金會(huì)(UXL),以英特爾的oneAPI為起點(diǎn),正在開(kāi)發(fā)一套開(kāi)源軟件套件,允許人工智能開(kāi)發(fā)者在任何AI芯片上運(yùn)行他們的代碼。
這里需要簡(jiǎn)單介紹下,oneAPI是英特爾的統(tǒng)一編程模型和軟件開(kāi)發(fā)框架,可以讓開(kāi)發(fā)者無(wú)需對(duì)代碼進(jìn)行重大修改,就能借助oneAPI實(shí)現(xiàn)跨硬件架構(gòu)(包括英特爾的CPU、GPU和FPGA)的程序開(kāi)發(fā)。
簡(jiǎn)單來(lái)說(shuō),UXL就是在oneAPI的基礎(chǔ)上更進(jìn)一步,要實(shí)現(xiàn)更廣泛的跨架構(gòu)跨平臺(tái)支持,解除芯片硬件與軟件的強(qiáng)綁定關(guān)系。
而集合了芯片廠商、大模型廠商以及晶圓代工廠的UXL,無(wú)疑是想取代英偉達(dá)CUDA平臺(tái),成為全球人工智能開(kāi)發(fā)者的首選開(kāi)發(fā)平臺(tái)。高通人工智能和機(jī)器學(xué)習(xí)主管Vinesh Sukumar就明確表示:
「我們實(shí)際上是在向開(kāi)發(fā)者展示如何從英偉達(dá)平臺(tái)遷移出來(lái)?!?/p>
甚至,UXL最終也將支持英偉達(dá)的硬件和代碼。
而除了最初參與的創(chuàng)始成員,UXL還吸引了包括亞馬遜AWS、微軟Azure以及多家芯片廠商。同時(shí)根據(jù)規(guī)劃,UXL預(yù)計(jì)在今年上半年確定技術(shù)規(guī)范,在年底前將技術(shù)細(xì)節(jié)完善成熟。
至于UXL能不能成功替代掉CUDA,成為全球人工智能開(kāi)發(fā)者的首選平臺(tái),顯然還需要一系列的證明,畢竟超越CUDA:
真的很難。
對(duì)抗CUDA,到底難在哪里?
首先我們需要明白,CUDA既是一種編程語(yǔ)言,也是一種編譯器。
作為編程語(yǔ)言,CUDA是開(kāi)發(fā)者通過(guò)CUDA與底層硬件(GPU)溝通、調(diào)用算力的一種方式,新建一套新的編程語(yǔ)言并不難。作為編譯器,CUDA無(wú)疑有很高的性能,這意味著開(kāi)發(fā)者可以通過(guò)CUDA在GPU上更高效地執(zhí)行程序,用更容易理解的話說(shuō):
CUDA可以高效地利用GPU的峰值算力。
考慮到今天人工智能訓(xùn)練對(duì)于大算力、高性能的追求,也無(wú)怪乎開(kāi)發(fā)者對(duì)于CUDA的偏愛(ài)。
但實(shí)際上英偉達(dá)在這兩個(gè)層面上絕非天下無(wú)敵,尤其是OpenAI開(kāi)源的Triton,不僅能在英偉達(dá)的GPU上實(shí)現(xiàn)接近CUDA的執(zhí)行效率,還在合并AMD ROCm(對(duì)標(biāo)CUDA)等平臺(tái)的代碼,兼容更多的GPU。
CUDA難以被撼動(dòng)的關(guān)鍵在于,它還是一種生態(tài)。
去年臺(tái)北電腦展上,老黃透露有400萬(wàn)開(kāi)發(fā)者正在使用CUDA計(jì)算平臺(tái)。而且在過(guò)去十幾年間(CUDA推出于2007年),CUDA已經(jīng)積累了大量的高性能程序庫(kù)以及框架代碼。這也是為什么盡管連OpenAI都吐槽用CUDA為GPU編程的難度,但更多開(kāi)發(fā)者還是基于CUDA,而不是Triton進(jìn)行開(kāi)發(fā)。
另一方面,英偉達(dá)的軟硬件協(xié)同設(shè)計(jì)也讓這種優(yōu)勢(shì)更加牢不可破。
要知道,Triton可以兼容英偉達(dá)的GPU,其他GPU也可以兼容CUDA,甚至在效率上后來(lái)居上也并非不可能。但軟件適配硬件需要時(shí)間,尤其是在GPU上需要更長(zhǎng)的時(shí)間。
這意味著英偉達(dá)一旦發(fā)布新的GPU和CUDA版本,不管是兼容CUDA還是兼容英偉達(dá)的GPU,就需要重新追趕英偉達(dá)的腳步。
所以某種程度上,能打敗英偉達(dá)的只有采用軟硬件協(xié)同設(shè)計(jì)的策略,同時(shí)擁有強(qiáng)大的芯片能力和軟件能力。
用“安卓模式”,打破英偉達(dá)算力霸權(quán)
谷歌擁有自己的TPU、XLA計(jì)算平臺(tái),還有自己的大模型和一系列算力「出口」。但谷歌這套并不外賣,所以包括Authropic(Claude母公司)、Midjourney都是通過(guò)谷歌云使用這一套算力解決方案,而沒(méi)有選擇購(gòu)買英偉達(dá)的GPU。
從這角度來(lái)看,UXL雖然聚集了從晶圓代工廠到芯片廠商,再到云計(jì)算和大模型廠商,涵蓋了AI芯片的主要上下游,但真正的挑戰(zhàn)還在于不同成員之間的協(xié)同,這也是UXL能不能成功的關(guān)鍵。
如果沒(méi)有足夠的利益捆綁,每一個(gè)“聯(lián)盟”都難成氣候,聚集得多高調(diào),渙散就有多迅猛。安卓生態(tài)能成功的關(guān)鍵在于,系統(tǒng)平臺(tái)、半導(dǎo)體、硬件、開(kāi)發(fā)者等等參與者能各取所需,一起將蛋糕做大。UXL是否能形成同樣的正循環(huán)效應(yīng)?當(dāng)下,我們不知道答案。
年初,OpenAI Sam Altman語(yǔ)不驚人死不休,曝出計(jì)劃籌集7萬(wàn)億美元解決AI面對(duì)的算力問(wèn)題。雖然這個(gè)數(shù)字驚掉了所有人的下巴,但也再一次地說(shuō)明了,以O(shè)penAI為代表的人工智能行業(yè)對(duì)于算力的極度渴求——在微軟支持下,OpenAI也在布局自有芯片體系。
總而言之,英偉達(dá)不能滿足所有人,所有人也不滿足于只有一家英偉達(dá)。換句話說(shuō),不管UXL能不能成功,谷歌會(huì)不會(huì)改變策略,所有人都會(huì)繼續(xù)挑戰(zhàn)英偉達(dá):
直到打破算力霸權(quán)。