文 | 智東西 李水青
編輯 | 漠影
近來(lái),對(duì)話式AI模型ChatGPT一夜間刷屏圈內(nèi)外,自動(dòng)駕駛模型訓(xùn)練速度提升超百倍,AI助力靶向藥研究成果頻登頂刊……AI(人工智能)技術(shù)正更深入人們的生產(chǎn)生活,背后的算力需求呈現(xiàn)指數(shù)級(jí)增長(zhǎng)態(tài)勢(shì)。
智能計(jì)算中心(簡(jiǎn)稱(chēng):智算中心)是一種面向AI技術(shù)研發(fā)與應(yīng)用的數(shù)據(jù)中心,專(zhuān)門(mén)滿(mǎn)足海量而多元化智能算力需求。
2023年1月10日,國(guó)家工業(yè)信息安全發(fā)展研究中心推出《智能計(jì)算中心2.0時(shí)代展望報(bào)告》(簡(jiǎn)稱(chēng):《報(bào)告》),指出經(jīng)過(guò)5年多發(fā)展,智算中心正由1.0粗放擴(kuò)張階段走向2.0精細(xì)規(guī)劃階段。
什么是智算中心2.0時(shí)代?我國(guó)智算中心發(fā)展面臨什么樣的真實(shí)挑戰(zhàn)?隨著當(dāng)下各行各業(yè)數(shù)字化轉(zhuǎn)型加快,作為數(shù)字化基礎(chǔ)設(shè)施的智算中心的又遵循什么樣的發(fā)展規(guī)律?回答這些問(wèn)題具有很強(qiáng)的實(shí)際意義。
近日,智東西通過(guò)對(duì)話智算中心領(lǐng)域代表企業(yè)中科曙光相關(guān)負(fù)責(zé)人,對(duì)這些問(wèn)題進(jìn)行了深入探討。《報(bào)告》收錄了多項(xiàng)先鋒實(shí)踐,其中,曙光憑借5A級(jí)智算中心、浸沒(méi)式相變液冷技術(shù)、全國(guó)一體化算力服務(wù)平臺(tái)等多項(xiàng)方案成果成為典型樣板。
01. 超30城落地智算中心,1.0時(shí)代面臨五大挑戰(zhàn)
隨著人工智能產(chǎn)業(yè)發(fā)展,我國(guó)智算中心建設(shè)自2017年以來(lái)按下快進(jìn)鍵,進(jìn)入十四五發(fā)展新時(shí)期更是被要求“適度超前發(fā)展”。根據(jù)《報(bào)告》,2017~2022年以來(lái),我國(guó)超30城快速布局智算中心,涌現(xiàn)出包括京津冀大數(shù)據(jù)智算中心、長(zhǎng)沙5A級(jí)智能計(jì)算中心等多個(gè)典型案例。
曙光相關(guān)負(fù)責(zé)人告訴智東西,當(dāng)下智算中心主要分為企業(yè)自建和公共基礎(chǔ)設(shè)施,全國(guó)30城智算中心大多是第二種情況,用于支持地方產(chǎn)業(yè)AI化、AI產(chǎn)業(yè)化及智能化治理等。
比如曙光目前在運(yùn)營(yíng)中的合肥、長(zhǎng)沙等地中心,已為科學(xué)研究、工業(yè)制造、政務(wù)服務(wù)等多領(lǐng)域提供支撐,助藥物研發(fā)、材料解析等近百項(xiàng)成果登上國(guó)際頂刊《Science》雜志,累計(jì)服務(wù)用戶(hù)突破10萬(wàn)+。
根據(jù)《報(bào)告》,當(dāng)下智算中心已逐漸賦能區(qū)域產(chǎn)業(yè)集群發(fā)展,但值得注意的是,其在多元算力融合、上下游協(xié)同、建設(shè)應(yīng)用聯(lián)動(dòng)、能源消耗、使用價(jià)格等方面仍面臨至少以下五大挑戰(zhàn):
1、通用算力和專(zhuān)用算力待融合。在自動(dòng)駕駛、智慧醫(yī)療、智慧城市等不同場(chǎng)景中,算力需求不同。單一化算力方案難以滿(mǎn)足多元算力需求,不能兼顧多產(chǎn)業(yè)和多領(lǐng)域。
2、算力、算法和數(shù)據(jù)協(xié)同不足。這些年來(lái)建設(shè)的智算中心,不同的芯片平臺(tái)、算法模型、數(shù)據(jù)庫(kù)、應(yīng)用層面部分處于垂直一體化“孤島”狀態(tài),軟硬件兼容性問(wèn)題有待改進(jìn)。
3、投資建設(shè)運(yùn)營(yíng)有待聯(lián)動(dòng)。智算中心投資、建設(shè)和運(yùn)營(yíng)往往由不同主體負(fù)責(zé)。前期建設(shè)單位往往對(duì)建設(shè)后運(yùn)營(yíng)的模式、服務(wù)標(biāo)準(zhǔn)投入不足,出現(xiàn)了管頭不管尾、建設(shè)運(yùn)營(yíng)割裂的現(xiàn)象,影響客戶(hù)體驗(yàn)。
4、碳排放和能耗高。設(shè)備自身的能耗排放帶來(lái)非常大的挑戰(zhàn),比如OpenAI公司的超大規(guī)模預(yù)訓(xùn)練模型GPT-3訓(xùn)練所需的耗電量為19萬(wàn)千瓦時(shí),相當(dāng)于2021年人均用電量的228倍。
5、投資成本和應(yīng)用價(jià)格待規(guī)范。智算中心的投建成本較高,部分智算中心每 100P半精算力的投資成本高達(dá)5-6億元,遠(yuǎn)遠(yuǎn)高出正常市場(chǎng)價(jià)格,同時(shí)使用成本也較高,比如據(jù)保守估計(jì)GPT-3大模型訓(xùn)練費(fèi)用超過(guò)1200萬(wàn)美元。
02. 智算中心2.0時(shí)代:算力融合、告別煙囪、綠色低碳
按照《報(bào)告》對(duì)產(chǎn)業(yè)的洞察,我國(guó)智算中心產(chǎn)業(yè)發(fā)展正在克服1.0時(shí)代的挑戰(zhàn)進(jìn)入2.0時(shí)代,背后來(lái)自于產(chǎn)業(yè)和政策兩方面的驅(qū)動(dòng)。
一方面,各行業(yè)數(shù)字化轉(zhuǎn)型加快,智慧城市、智能制造、無(wú)人駕駛、數(shù)字孿生等大量場(chǎng)景需求拉動(dòng)了數(shù)據(jù)計(jì)算分析的需求。根據(jù)知名行研機(jī)構(gòu)羅蘭貝格報(bào)告顯示,2030年人工智能的算力需求將是2018年的算力需求的390倍。
另一方面,“十四五”規(guī)劃與中長(zhǎng)期發(fā)展綱要明確強(qiáng)調(diào),要加快構(gòu)建全國(guó)一體化大數(shù)據(jù)中心體系,強(qiáng)化算力統(tǒng)籌、智能調(diào)度。2022年2月東數(shù)西算啟動(dòng),我國(guó)智算中心在10大國(guó)家數(shù)據(jù)中心集群拉開(kāi)新序幕。東數(shù)西算對(duì)數(shù)據(jù)中心提出集約化建設(shè)、能耗低碳等要求,催促智算中心由粗放式擴(kuò)張走向精細(xì)式規(guī)劃建設(shè)的2.0階段。
智算中心2.0階段為產(chǎn)業(yè)發(fā)展提供了新的指引,那么它有什么特征?
根據(jù)《報(bào)告》,智算中心2.0階段標(biāo)志著一個(gè)“有序發(fā)展”和“算網(wǎng)一體”建設(shè)新格局產(chǎn)生,賦予了以下7大新內(nèi)涵:
1、算力融合,通用和專(zhuān)用算力融合供應(yīng)。智算中心在1.0階段主要提供同構(gòu)計(jì)算、專(zhuān)用算力,2.0階段則需要利用CPU、GPU等加速芯片的異構(gòu),實(shí)現(xiàn)“高精度通用算力+低精度專(zhuān)用算力”融合供應(yīng)。包括谷歌、英特爾、阿里、曙光、百度等國(guó)內(nèi)外企業(yè)都在研發(fā)異構(gòu)計(jì)算結(jié)構(gòu)。
2、軟硬協(xié)同,加快增強(qiáng)產(chǎn)業(yè)發(fā)展協(xié)同性。在1.0階段,智算中心主要采用垂直一體的軟硬件煙囪式方案,通用性和兼容性較低;在2.0階段,智算中心更強(qiáng)調(diào)產(chǎn)業(yè)鏈上下游的開(kāi)放協(xié)同,要實(shí)現(xiàn)算力、模型和數(shù)據(jù)集的橫向兼容,確保各層次靈活構(gòu)建。
3、建運(yùn)一體,逐步完善一體化服務(wù)體系。在1.0階段,智算中心主要聚焦在算力基礎(chǔ)設(shè)施建設(shè)上;2.0階段,更加關(guān)注規(guī)劃建設(shè)和服務(wù)的統(tǒng)籌全局性。
4、能耗低碳,加快部署能耗低碳化技術(shù)。傳統(tǒng)的數(shù)據(jù)中心較多采用風(fēng)冷方式,散熱效率較低;在2.0階段,數(shù)據(jù)中心的冷卻方式需要綠色節(jié)能,液冷方式發(fā)展起來(lái)。
5、成本優(yōu)化,持續(xù)優(yōu)化成本實(shí)現(xiàn)價(jià)格的普惠。在1.0階段,較高的投建成本稀釋了算力的價(jià)值;2.0階段應(yīng)該發(fā)算力基礎(chǔ)設(shè)施的公共屬性,尤其要推進(jìn)智能算力網(wǎng)絡(luò)建設(shè),促進(jìn)不同地區(qū)、不同應(yīng)用之間的算力普惠發(fā)展。
6、需求牽引,從建起來(lái)到用起來(lái)。1.0階段,大多數(shù)智算中心是規(guī)劃牽引的政府規(guī)劃、財(cái)政撥款建設(shè);2.0階段,應(yīng)更強(qiáng)調(diào)市場(chǎng)需求牽引、平臺(tái)化運(yùn)營(yíng),多元化的模式來(lái)進(jìn)行智算中心建設(shè)。
7、安全可信,落實(shí)新基建安全要求。在1.0階段,自主創(chuàng)新程度還是比較低;2.0階段要充分考慮信息安全和產(chǎn)業(yè)安全,以自主“通用芯片+AI芯片+操作系統(tǒng)+硬件設(shè)備+框架模型”為基礎(chǔ)技術(shù)體系來(lái)構(gòu)建生態(tài)、發(fā)展應(yīng)用。
可以看到,2.0階段的智算中心正從拼規(guī)模向拼質(zhì)量發(fā)展。
曙光相關(guān)負(fù)責(zé)人對(duì)智東西說(shuō),國(guó)家十四五數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃中提及“有序發(fā)展”,意味著此前幾年存在的一些無(wú)序狀態(tài)將要改變;同時(shí)智算中心建設(shè)強(qiáng)調(diào)協(xié)同,從原來(lái)的單打獨(dú)斗走向上下游軟硬件廠商的協(xié)同作戰(zhàn),將算法、算力、數(shù)據(jù)廠商聯(lián)動(dòng)起來(lái)。
03.開(kāi)放架構(gòu)曙光5A級(jí)智算中心打造行業(yè)樣板
基于2.0階段的要素特征,《報(bào)告》給出當(dāng)前產(chǎn)業(yè)內(nèi)示范樣例,為智算中心從“建好”到“用好“提供借鑒與指導(dǎo)。值得一提的是,以曙光為代表的ICT企業(yè)憑借多個(gè)實(shí)際應(yīng)用案例正成為典型樣板。
《報(bào)告》指出,“中科曙光推出5A級(jí)智算中心可通過(guò)分布式異構(gòu)并行體系結(jié)構(gòu),覆蓋全算力精度,實(shí)現(xiàn)多樣化算力供應(yīng)?!遍_(kāi)放是曙光5A級(jí)智算中心的最核心宗旨,通過(guò)硬件、算法、框架、模型的全面開(kāi)放、兼容,構(gòu)建多元集成的基礎(chǔ)架構(gòu),實(shí)現(xiàn)算力底座最大程度的易用性,降低遷移成本。
當(dāng)下國(guó)內(nèi)智算中心推進(jìn)格局就像“爬珠峰”一樣,分化出南坡、北坡等不同的架構(gòu)“爬坡”路線。有的企業(yè)選擇用自己的芯片、操作系統(tǒng)、模型框架等技術(shù)形成一個(gè)垂直架構(gòu)閉環(huán),有的選擇多方協(xié)作的開(kāi)放架構(gòu)。而曙光推出的5A級(jí)智算中心,是要做第二種路線的典范。
目前,5A級(jí)智算中心在長(zhǎng)沙、合肥等多地投運(yùn),致力為千行百業(yè)注入AI活力,打造智能算力領(lǐng)域的行業(yè)樣板。
04.結(jié)語(yǔ):開(kāi)放融合共建智算中心從“建起來(lái)”到“用起來(lái)”
《報(bào)告》以2022年十四五規(guī)劃及行業(yè)政策的陸續(xù)出臺(tái)為分界點(diǎn),將智算中心的發(fā)展劃分為高速擴(kuò)張的1.0階段與行業(yè)引導(dǎo)的2.0階段,2.0階段的智算中心將從粗放擴(kuò)張轉(zhuǎn)向精細(xì)式規(guī)劃建設(shè)。
如同“攀珠峰”一般,國(guó)內(nèi)智算中心建設(shè)也開(kāi)出了多條爬坡路徑。無(wú)論何種路徑,開(kāi)放生態(tài)、綠色低碳、算力融合都是作為公共基礎(chǔ)設(shè)施的智算中心規(guī)模落地的必由之路。