文|劉曠
2023年伊始,資本市場(chǎng)的關(guān)注點(diǎn)明顯變了,AIGC逐漸成為這一輪大行情的全新焦點(diǎn)。今年以來(lái),從國(guó)外的AUTOGPT到國(guó)內(nèi)的文心一言,再到華為的盤古大模型、訊飛星火大模型等紛紛推出,呈現(xiàn)出一派你方唱罷我方休的姿態(tài)。
盡管參與者甚眾,但目前為止這些應(yīng)用,離真正的落地還相距甚遠(yuǎn)。實(shí)際上,不論是哪家公司訓(xùn)練大模型,都離不開(kāi)天文數(shù)字的海量算力支持,因此當(dāng)前能夠真正從AI大模型中獲益的,更可能是為大模型訓(xùn)練提供算力支持的高性能算力廠商和服務(wù)器廠商。
ChatGPT拉動(dòng)算力持續(xù)飆升
在AI大模型飛速發(fā)展之下,單個(gè)大語(yǔ)言訓(xùn)練驅(qū)動(dòng)AI訓(xùn)練服務(wù)器需求約2億美元,AI推理服務(wù)器方面,如ChatGPT在初期便可帶動(dòng)推理服務(wù)器需求約45億美元。而各種ChatGPT的爆發(fā),更讓它背后的AI服務(wù)器隨之水漲船高。
具體而言,算力作為大模型的核心引擎,它的計(jì)算方式既簡(jiǎn)單又粗暴,即實(shí)際擁有多少的GPU芯片,將直接決定其算力的大小。并且ChatGPT所需要的算力不是固定的,反而是逐次遞增的,這就意味著ChatGPT越聰明,其背后所需要的算力就越多,而供需雙方存在的現(xiàn)實(shí)差距,則讓算力資源的“緊張問(wèn)題”變得愈加嚴(yán)重起來(lái)。
從需求側(cè)來(lái)看,大模型參數(shù)量的持續(xù)增大,需要更多算力資源予以支持。從大模型自身的發(fā)展?fàn)顩r來(lái)看,參數(shù)量的變化是一個(gè)非常值得關(guān)注的指標(biāo)。從最早的ResNet、inception等模型,到如今的GPT模型,大模型的參數(shù)量不斷壯大。
數(shù)據(jù)顯示,2018年前后OpenAI先后推出Transformer和GPT-1模型,參數(shù)量在1億級(jí)別;隨后谷歌提出3億參數(shù)的BERT模型,參數(shù)量再次增長(zhǎng)。2019、2020年OpenAI加速追趕,陸續(xù)迭代出GPT-2、GPT-3模型,參數(shù)量分別為15億、1750億,實(shí)現(xiàn)模型體量質(zhì)的飛躍,而阿里達(dá)摩院旗下的多模態(tài)大模型M6的參數(shù)量,更是達(dá)到了萬(wàn)億甚至10萬(wàn)億的量級(jí),數(shù)據(jù)量加速指數(shù)級(jí)攀升之下,其所需算力自然也需要指數(shù)級(jí)提升。
從供給側(cè)來(lái)看,大模型參數(shù)量不斷增大之下,參數(shù)運(yùn)算需要大規(guī)模并行計(jì)算的支持,而它取決于底層GPU內(nèi)存容量。OpenAI預(yù)計(jì)人工智能科學(xué)研究要想取得突破,所需要消耗的計(jì)算資源每3—4個(gè)月就要翻一倍,資金也需要通過(guò)指數(shù)級(jí)增長(zhǎng)獲得匹配。在算力方面,GPT-3.5在微軟Azure AI超算基礎(chǔ)設(shè)施(由GPU組成的高帶寬集群)上進(jìn)行訓(xùn)練,總算力消耗約3640PF-days。
在大數(shù)據(jù)方面,GPT-2用于訓(xùn)練的數(shù)據(jù)取自于Reddit上高贊的文章,數(shù)據(jù)集共有約800萬(wàn)篇文章,累計(jì)體積約40G;GPT-3模型的神經(jīng)網(wǎng)絡(luò)是在超過(guò)45TB的文本上進(jìn)行訓(xùn)練的,數(shù)據(jù)相當(dāng)于整個(gè)維基百科英文版的160倍。就ChatGPT而言,需要TB級(jí)的運(yùn)算訓(xùn)練庫(kù),甚至是P-Flops級(jí)的算力,需要7-8個(gè)投資規(guī)模30億、算力500P的數(shù)據(jù)中心才能支撐運(yùn)行??傊?,在大模型持續(xù)發(fā)展之下,ChatGPT的競(jìng)爭(zhēng)焦點(diǎn)逐漸轉(zhuǎn)到了AI超級(jí)算力上,或者是包括GPU在內(nèi)的算力資源支持上。
礦卡風(fēng)口再次來(lái)臨
在行業(yè)算力需求持續(xù)飆升之下,以英偉達(dá)等為主的核心高性能芯片廠商,已經(jīng)享受到了作為ChatGPT“賣鏟人”的收益,再次迎來(lái)了曾經(jīng)互聯(lián)網(wǎng)大爆發(fā)時(shí)期的那種礦卡風(fēng)口。以英偉達(dá)的旗艦芯片H100為例,其在短短一周之內(nèi),漲價(jià)近7萬(wàn)元人民幣,售價(jià)普遍高達(dá)30萬(wàn)左右,次旗艦A100芯片在短短三個(gè)月多時(shí)間里,從6萬(wàn)元一路漲至9萬(wàn)元,漲幅超過(guò)50%。盡管其產(chǎn)品不斷漲價(jià),但訂單依然是供不應(yīng)求。
一方面,是英偉達(dá)作為硬件霸主,不僅在消費(fèi)級(jí)市場(chǎng)占據(jù)大部分市場(chǎng),還是AI服務(wù)器芯片領(lǐng)域的頭號(hào)選擇,因此其成為很多“渴望”大算力企業(yè)的優(yōu)先選擇。據(jù)此前公開(kāi)的數(shù)據(jù)顯示,截至2022年第三季度,英偉達(dá)在獨(dú)立顯卡市場(chǎng)的份額或已經(jīng)達(dá)到了88%,顯卡部分帶來(lái)的營(yíng)收占到了其總營(yíng)收的60%以上,這表明其依然是消費(fèi)級(jí)顯卡市場(chǎng)無(wú)可爭(zhēng)辯的領(lǐng)導(dǎo)者。
基于其在圖像處理器領(lǐng)域的強(qiáng)勢(shì)地位和核心技術(shù),其AI大算力芯片在大模型爆發(fā)之后,始終處于“供不應(yīng)求”的狀態(tài),特別是ChatGPT從國(guó)外蔓延到國(guó)內(nèi)的過(guò)程中,越來(lái)越多的國(guó)內(nèi)互聯(lián)網(wǎng)企業(yè)選擇跟隨,其中以BAT為首出現(xiàn)了超過(guò)10家企業(yè)宣布推出大模型的計(jì)劃。按照ChatGPT的水準(zhǔn),至少需要3000枚A100芯片,以9萬(wàn)/枚的價(jià)格來(lái)算就是2.7億人民幣才能完成一個(gè)大模型部署;10個(gè)大模型就需要3萬(wàn)枚A100芯片,27億人民幣,加上后續(xù)訓(xùn)練成本,這將會(huì)是一個(gè)天文數(shù)字。
另一方面,由于受到政策層面的影響,高端AI芯片“斷供”的風(fēng)險(xiǎn)劇增,也可能會(huì)導(dǎo)致一部分大模型企業(yè)提前囤積芯片,導(dǎo)致相關(guān)的芯片用量激增。
國(guó)產(chǎn)替代跑步前進(jìn),但仍有高墻難越
從目前來(lái)看,盡管國(guó)內(nèi)使用英偉達(dá)GPU服務(wù)器的占比較高,且在當(dāng)前AI大模型發(fā)展勢(shì)頭之下,英偉達(dá)具有壓倒性優(yōu)勢(shì)。但國(guó)產(chǎn)企業(yè)頂著壓力,依然跑出了幾匹黑馬。根據(jù)IDC最新發(fā)布的《中國(guó)加速計(jì)算市場(chǎng)(2021年下半年)跟蹤報(bào)告》,2021年全年中國(guó)AI服務(wù)器市場(chǎng)規(guī)模達(dá)350.3億元,同比增長(zhǎng)68.6%。在企業(yè)級(jí)GPU芯片領(lǐng)域,中國(guó)廠商壁仞科技在2022年推出“BR100”芯片、天數(shù)智芯推出了“智鎧100”芯片、寒武紀(jì)推出了“思元270”芯片。
其中壁仞科技稱,BR100擁有全球最高算力,峰值算力達(dá)到了市場(chǎng)在售旗艦產(chǎn)品的三倍以上,16位浮點(diǎn)算力達(dá)到1000T以上、8位定點(diǎn)算力達(dá)到2000T以上,單芯片峰值算力達(dá)到PFLOPS級(jí)別。這些消息,對(duì)于身處美國(guó)從設(shè)備、材料到技術(shù)全面封鎖之中的中國(guó)企業(yè)而言,應(yīng)該算是一個(gè)可喜的消息,但想要翻越英偉達(dá)這座高山顯然也并不容易。
首先,在AI芯片設(shè)計(jì)上,國(guó)產(chǎn)廠商與海外巨頭的差距雖然縮小了,但在AI大生態(tài)上的差距卻依然存在。比如,壁仞科技的芯片算力數(shù)據(jù)雖好,但缺少至關(guān)重要的處理FP64的能力,依然無(wú)法完全取代英偉達(dá)的H100、A100。并且,英偉達(dá)使用的CUDA平臺(tái)早已成為應(yīng)用最為廣泛的AI開(kāi)發(fā)生態(tài)系統(tǒng),只支持英偉達(dá)的Tesla架構(gòu)GPU,在現(xiàn)階段根本無(wú)法用國(guó)產(chǎn)芯片取代,因?yàn)樗婕暗紸I芯片的軟件生態(tài)建設(shè)、基礎(chǔ)架構(gòu)等,都還掌握在巨頭手中,目前我們還沒(méi)辦法在硬件編程模型上找到替代方案。
目前來(lái)看,無(wú)論是解決生態(tài)問(wèn)題,還是解決產(chǎn)業(yè)鏈自主問(wèn)題都需要時(shí)間,后者的實(shí)現(xiàn)尤其需要一番功夫。
AI芯片國(guó)產(chǎn)化替代破局點(diǎn)在哪兒?
不過(guò)從解決問(wèn)題的角度來(lái)說(shuō),國(guó)產(chǎn)替代也絕非沒(méi)有機(jī)會(huì),至少?gòu)膰?guó)內(nèi)當(dāng)前的信創(chuàng)產(chǎn)業(yè)基礎(chǔ)和數(shù)據(jù)應(yīng)用來(lái)看,國(guó)內(nèi)市場(chǎng)更有可能利用前端市場(chǎng)的創(chuàng)新來(lái)逆向底層定制,從而走出一條自己的路。即便是在當(dāng)下,也有一些暫時(shí)性的替代方案和思路。
一是定向的國(guó)產(chǎn)扶持路徑。對(duì)于國(guó)產(chǎn)廠商來(lái)說(shuō),如果它不通過(guò)定向合作的方式,很難通過(guò)“單打獨(dú)斗”來(lái)做事情,因?yàn)橥鈬?guó)企業(yè)都會(huì)有自己的軟件架構(gòu),然后整個(gè)產(chǎn)業(yè)都適配這個(gè)架構(gòu),從而形成一個(gè)完整的生態(tài),這種情況下“從零做起”完全是“費(fèi)力不討好”的事情。因此,要想推動(dòng)國(guó)產(chǎn)廠商的崛起,就需要先通過(guò)與頭部國(guó)產(chǎn)AI芯片制造商長(zhǎng)期綁定合作,推動(dòng)自主企業(yè)軟件架構(gòu)的形成,然后以該架構(gòu)為主線,逐漸建立起覆蓋上下游的應(yīng)用生態(tài)。
當(dāng)然,這種路徑也有時(shí)間周期。據(jù)中信證券研報(bào)顯示,GPU IP自研需要36-48個(gè)月以及200個(gè)工程師,而采用外購(gòu)IP的方式,則需要12-18個(gè)月開(kāi)發(fā)周期,總體上時(shí)間都不算短。
二是通過(guò)兼容CUDA生態(tài)做延伸。相比自研系統(tǒng),兼容CUDA系統(tǒng)則可以迅速切入國(guó)際主流的商業(yè)計(jì)算軟件和人工智能軟件,通過(guò)接入豐富的軟硬件生態(tài),可廣泛應(yīng)用于大數(shù)據(jù),人工智能、商業(yè)計(jì)算等應(yīng)用領(lǐng)域。
對(duì)比兩種方法來(lái)看,目前較為可行的方案還是第二種,但從長(zhǎng)遠(yuǎn)來(lái)看還是做兩手準(zhǔn)備。這樣才能夠未雨綢繆,為將來(lái)的全面替代做鋪墊。