文|劉曠
隨著人工智能、云計算、物聯(lián)網、自動駕駛、大數(shù)據(jù)等前端科技的不斷延伸和發(fā)展,作為數(shù)字經濟底座的算力資源,正日漸發(fā)展成為衡量國家生產力的新晉指標。據(jù)中國信息通信研究院測算,截至2021年底,中國算力核心產業(yè)規(guī)模超過1.5萬億元,關聯(lián)產業(yè)規(guī)模超過8萬億元。其中,云計算市場規(guī)模超過3000億元,互聯(lián)網數(shù)據(jù)中心(服務器)市場規(guī)模超過1500億元,AI 核心產業(yè)規(guī)模超過4000億元。
據(jù)工信部在中國首屆算力大會上披露的數(shù)據(jù)顯示,國內算力產業(yè)近五年平均增速超過30%,算力規(guī)模超過150EFlops(每秒15000京次浮點運算次數(shù)),排名全球第二,第一是美國。實際上作為國內算力建設的重要參與方,包括阿里云、騰訊云、百度云、浪潮云等在內的各路云巨頭,早已經圍繞算力市場展開了競賽。
云巨頭開啟算力競賽
作為云計算產業(yè)的底層核心基礎設施,數(shù)據(jù)中心也是云計算廠商布局的重要抓手。近年來伴隨著數(shù)字新基建浪潮的來臨,阿里云、騰訊云、百度智能云和華為云等廠商都相繼宣布,數(shù)據(jù)中心建設將成為今后數(shù)年的重點投資領域。
早在2020年各云巨頭對外公布的數(shù)據(jù)中心投資計劃中,阿里宣布未來三年再投2000億元,用于云操作系統(tǒng)、服務器、芯片、網絡等重大核心技術研究和面向未來的數(shù)據(jù)中心建設;同一時期,騰訊也宣布未來五年再投入5000億元,用于云計算、超算中心、人工智能、網絡安全、量子計算和物聯(lián)網系統(tǒng)等方面;百度計劃未來十年將繼續(xù)加大在人工智能、芯片、云計算、數(shù)據(jù)中心等新基建領域的投入,并預計到2030年,百度智能云服務器臺數(shù)將超過500萬臺。
除了BAT之外包括華為、中國移動等在內的ICT、通訊運營商等企業(yè),也紛紛參與到數(shù)據(jù)中心的建設中來。比如,華為云已經先后在烏蘭察布、蘇州、廊坊、貴安等地,建立了多個數(shù)據(jù)樞紐中心,這些地方也有中國移動、聯(lián)通等通訊運營商企業(yè)的身影。
除了國內之外,巨頭的云數(shù)據(jù)中心還廣泛分布于全世界各地。比如,目前阿里云的全球云數(shù)據(jù)中心已經有數(shù)百個,基本覆蓋超過200多個國家;騰訊云、華為云也分別在各自的海外市場如東南亞、北美、歐洲、中東等地修建本地數(shù)據(jù)中心……不難發(fā)現(xiàn),在多重因素推動下一場云巨頭的算力競賽已經拉開了帷幕。
從產業(yè)發(fā)展現(xiàn)狀來看,最近十年行業(yè)算力的增長,嚴重滯后于數(shù)據(jù)的增長的局面亟待改變。半個世紀之前,人類第一次將阿波羅11號飛船送上太空時所搭載的電腦,CPU主頻只有0.043MHz,今天一部智能機的主頻都在2500MHz,是五十年前的5萬倍,如今在物聯(lián)網的作用下,數(shù)以千億計的聯(lián)網設備疊加復雜的場景正在引發(fā)產業(yè)數(shù)據(jù)大爆炸。在此背景下,算力滯后的問題將變得愈加尖銳,因此云巨頭投身算力基礎設施建設無非是未雨綢繆,為其接下來的云服務、AI等數(shù)據(jù)應用做鋪墊。
從政策方面來看,國家關于數(shù)字新基建的政策不斷出臺,正在推動數(shù)字基建進入全新的發(fā)展階段。近年來國家陸續(xù)推出了包括“東數(shù)西算”等在內的一系列數(shù)字新基建建設計劃,大力推動國家算力網絡的建設,為算力基礎設施的建設提供了外部助力。
從算力產業(yè)本身的產業(yè)鏈情況來看,它具有規(guī)模大、技術密集、覆蓋范圍廣等特點,成為當下國內經濟轉型背景下重要的推動型產業(yè)。如今,小到芯片、手機、PC,大到汽車、互聯(lián)網、超算中心、區(qū)塊鏈、超級計算機、元宇宙等產業(yè),都離不開算力的加持。據(jù)中國信通院預計,每1元的算力投入,可以帶動3-4元的GDP經濟產出。
據(jù)預計,今年國家將開工25個國家數(shù)據(jù)中心項目,帶動各方面投資將在1900億元,預計在“十四五”期間該項投資還將以年均20%的增速增長,累計帶動投資達到3萬億元??傊?,基于種種有利因素,各路云巨頭紛紛按下算力競賽加速鍵。
安全、低碳成競逐方向
不過,隨著數(shù)據(jù)中心等基礎設施的逐步擴大,其面臨的挑戰(zhàn)也越發(fā)顯著。此前,阿里云因發(fā)現(xiàn)阿帕奇log4j2組件安全漏洞,未及時告知工信部而被罰暫停合作6個月,此事曾一度引發(fā)外界對于算力安全的關注;另外,數(shù)據(jù)中心高功耗的行業(yè)特性,使其一直面臨越來越多的低碳環(huán)保質疑。不難看出,在數(shù)據(jù)大規(guī)模上云、低碳經濟加速推行的大背景下,低碳、安全等因素日益成為影響算力行業(yè)發(fā)展的重要因素。
一方面,各個巨頭都在圍繞著云安全、算力安全做布局,以較強的產品安全設計來獲取用戶對品牌的信賴。
比如,騰訊云為了推動安全算力落地,推出了自研的基于安全算力的算法,以及全局威脅檢測與全網全出口攔截的防御解決方案—騰訊天幕;阿里云也推出了阿里云原生安全SOC,由此構建起了一個實時識別、分析、預警安全威脅的統(tǒng)一安全管理系統(tǒng),通過防篡改、防勒索、防病毒、鏡像安全掃描等安全能力,實現(xiàn)從檢測掃描、響應、溯源的自動化安全運營閉環(huán),保護云上資產和本地服務器安全;華為云則圍繞云安全提出了“正向建、反向查、云邊端網一體防御”的云安全理念,并在今年提出了全新的HiSec3.0安全解決方案,該方案具有“全流程安全可信、全智能威脅分析、全云網邊端協(xié)同、全新安全云服務”的特征。
另一方面,基于降低能耗實現(xiàn)低碳運營的考慮,降低功耗成了各個云巨頭推動產業(yè)發(fā)展的核心指向。
以電能利用效率(PUE)的指標來看,目前國內的頭部云服務巨頭,阿里云、騰訊云、百度云均已滿足國家標準。按照國家規(guī)定來算,2021年底新建數(shù)據(jù)中心電能利用效率要達到1.35以下,2023年要達到1.3以下,寒冷地區(qū)達到1.25以下。而截止2021年,百度云、阿里云、騰訊云等的電能利用效率,均已經達到了1.3的指標,最低值甚至可以達到1.06,已經遠遠超越現(xiàn)行國家標準了。
總的來看,未來隨著技術的發(fā)展和碳中和的推進,圍繞安全、低碳等要素的新算力中心建設將會是核心指標,并將成為云巨頭未來在算力市場競爭的關鍵點。
服務器、芯片成關鍵強化環(huán)節(jié)
作為數(shù)據(jù)中心中的重要組成部分,服務器中的CPU、GPU決定了服務器的算力。據(jù)信通院數(shù)據(jù)顯示,服務器在數(shù)據(jù)中心中的硬件成本占到了70%左右,而芯片成本則占據(jù)服務器成本的絕大部分。根據(jù)IDC的研究數(shù)據(jù)顯示,CPU(中央處理器)、GPU(圖像處理器)、DRAM(動態(tài)隨機存取處理器)三個模塊中的芯片成本在基礎型服務器中占比約30%,在更高性能的服務器中占比高達50%-80%。正因為如此,服務器、芯片逐漸成了巨頭們選擇重點強化的領域。
一方面,巨頭紛紛通過自研來提升自身服務器產品的性價比,優(yōu)化其產品體驗。目前,阿里云的五大超級數(shù)據(jù)中心已經部署了其自研架構的神龍云服務器,并應用了阿里巴巴自研的AI芯片含光800。此外,阿里巴巴旗下平頭哥半導體有限公司于2021年10月發(fā)布了首顆ARM服務器芯片倚天710,也已經在阿里云數(shù)據(jù)中心部署使用。
與此同時,騰訊云面向云計算數(shù)據(jù)中心場景發(fā)布了星星海自研服務器,并分別發(fā)布了AI推理芯片“紫霄”、視頻轉碼芯片“滄?!焙椭悄芫W卡芯片“玄靈”等三款自研芯片,并已經取得進展。百度的昆侖芯片一代、二代,也都已經應用于自己的人工智能算力中心之中了;在研發(fā)方面一向用心的華為,也發(fā)布了自己的鯤鵬處理器,適用于自己的TaiShan服務器。
據(jù)公開數(shù)據(jù)來看,這些新推出的芯片、服務器均實現(xiàn)了穩(wěn)步的降本增效。總之,通過推動自研服務器、芯片,目前國產云巨頭們都已經開始在降功耗、降成本、提升用戶體驗方面,邁出了重要一步。
另一方面,在數(shù)據(jù)大爆發(fā)的背景下,各大巨頭紛紛轉向以ARM、FPGA、ASIC等為核心的低功耗計算架構,避免對單一架構的過度依賴。
過去數(shù)十年,全球算力基本上是CPU一家獨大,然而近年來隨著半導體工藝制程逼近極限,CPU算力愈加陷入瓶頸。隨著人工智能時代的到來,具有更低成本更高效率的GPU,逐漸成為了首選。不過,從行業(yè)來看,GPU并不是唯一選擇,但它代表了大數(shù)據(jù)、云服務時代,廠商對于高效、低功耗、低成本的專用芯片的追求。在外部場景日益復雜的背景下,非X86的算力架構百花齊放,日益承擔起更大算力場景的“重任”。
以FPGA和ASIC兩個專業(yè)芯片來說,它們沒有傳統(tǒng)CPU的指令集,無需共享內存,而是直接以流水線的方式處理數(shù)據(jù),不僅速度快而且功耗低的驚人,當然代價是它僅用于特定目的,基本只能走定制或者半定制路線。
但在大數(shù)據(jù)算力場景之中,廣泛的數(shù)據(jù)處理需求與追求效率的“KPI”使其專業(yè)價值更被看重,大量的廠商研發(fā)、使用這些專用芯片就證明了這一點。比如,如今微軟在自家一半以上的數(shù)據(jù)中心的服務器中,使用了FPGA加速卡;谷歌更是基于ASIC架構,開發(fā)了專用于加速神經網絡計算的TPU芯片,亞馬遜、IBM等業(yè)界大佬也都紛紛跟進。
從長遠來看,異構、安全、綠色、集約化等特征,將成為未來算力發(fā)展的核心指標,也將是各路巨頭強化自身實力所要補足的核心環(huán)節(jié)。
算力革命下的新機遇與新挑戰(zhàn)
如前文所述,作為支持數(shù)字經濟以及智能化的核心基座,以數(shù)字新基建為代表的算力革命,正在催生出前所未有的新機遇,同時也將帶來一些不可避免的現(xiàn)實挑戰(zhàn)。
從機遇來說,目前國內四大云巨頭雖然目標不同、生態(tài)不同,但都在以推動算力投資為抓手打開自己的新邊界。
以騰訊和華為為例,騰訊正在通過算力基礎設施投資,為其推動空間從平面向立體、實景網絡與虛擬網絡的數(shù)字孿生、三維視覺網絡提供算力支持,加速一體化的數(shù)字技術與真實世界融合的全真互聯(lián)網時代的到來;身為ICT通訊技術大佬的華為則聚焦數(shù)字基建,推動全光終端(全場景)、全光錨點(就近接入)、全光網關(無縫銜接)、全光調度(低時延)的全鏈條算力聯(lián)通,努力做數(shù)字基建的“擺渡人”。
不過,目前國內搭建算力網絡也依舊面臨諸多挑戰(zhàn),其具體體現(xiàn)在以下2個方面:一是網絡方面仍面臨較多的問題,如實時性缺乏保障、寬帶太小,互聯(lián)互通不足等;二是算力產業(yè)鏈“關鍵環(huán)節(jié)”的國產化依舊比較低,包括服務器整機、操作系統(tǒng)、算力數(shù)據(jù)庫等領域,依舊較多受外部因素制約。
網絡方面以寶鋼為例,其內部提到的云化問題就包括:存在大量非云化設備、協(xié)議不開放、工業(yè)連接不豐富、多網并存網絡安全無法保障等,就很直觀地體現(xiàn)了當下算力網絡發(fā)展應用所面臨的窘境。另外,諸如實時性差,對于產業(yè)數(shù)字化帶來的挑戰(zhàn)也很大。比如,生產中因為網絡慢了一秒,就有可能導致整個生產的連續(xù)性遭到破壞,進而引發(fā)大規(guī)模返工造成企業(yè)巨大虧損。
國產化方面,目前服務器、操作系統(tǒng)以及數(shù)據(jù)庫等關鍵環(huán)節(jié),仍然為國外巨頭所壟斷。近年來國內巨頭雖然都在研究自己的服務器和專屬芯片,但業(yè)內人士認為互聯(lián)網“造芯”(多為滿足自用),很難從根本上解決國內服務器依賴芯片進口的現(xiàn)狀。
因此從長遠來看,要想保持國內算力網絡建設的持續(xù)健康發(fā)展,還需要繼續(xù)加大力度補齊短板,通過產學研并舉掌握核心技術,在高端芯片、核心算法等關鍵領域取得突破,才有望在未來實現(xiàn)國內算力網絡資源的自主可控,進而避免算力網絡陷入被“卡脖子”的風險之中。