文|腦極體
氣溫上升,還有什么能比“工作沒了”,更能讓人一瞬間心里拔涼拔涼的呢?
這個“薪盡自然涼”的故事,就發(fā)生在數(shù)據(jù)中心。
前不久,某電商平臺正在購物高峰期,結(jié)果IDC冷凍系統(tǒng)故障,機房設(shè)備溫度快速升高,直接宕機了12個小時,據(jù)說損失高達一億以上。
業(yè)務(wù)涼了,該企業(yè)的基礎(chǔ)平臺部負責人的職業(yè)生涯也涼了。當然,受傷的不止一個人,因為這次機房事故影響的還有微信、QQ等軟件,騰訊內(nèi)部的幾個高管也遭到了降級、免職的處罰。
(事故公告)
AI熱度狂飆,數(shù)字經(jīng)濟加速,作為計算的心臟最該保持涼爽的數(shù)據(jù)中心,也越來越難以冷靜,所以液冷也成了除AI之外,計算廠商“群起而攻之”的概念,也是IT人不得不關(guān)注的技術(shù)。
2022年被認為是數(shù)據(jù)中心的“液冷元年”。
因為客戶多了,雙碳戰(zhàn)略和東數(shù)西算的政策持續(xù)牽引,液冷從少數(shù)互聯(lián)網(wǎng)巨頭、公有云廠商、智算中心、HPC高性能計算中心等的選擇,開始引發(fā)更多大眾行業(yè)和企業(yè)的關(guān)注。
有需求就有供給,廠商動作也明顯多了。眾多服務(wù)器廠商、云計算和互聯(lián)網(wǎng)企業(yè)爭先研發(fā)數(shù)據(jù)中心液冷技術(shù),甚至有廠商喊出了 “All in 液冷 ”的口號,許多新的液冷產(chǎn)品和解決方案被推向市場。
資本市場也愿意為液冷概念買單,今年以來,中科曙光、申菱環(huán)境、網(wǎng)宿科技、英維克等相關(guān)企業(yè)都出現(xiàn)過大漲。
多股力量之下,液冷的熱度很難不高。
不過,數(shù)據(jù)中心的冷卻技術(shù)發(fā)展了很多年,液冷對于數(shù)據(jù)中心來說并非新鮮事物,降本降PUE需求也不是一年兩年了,為什么AI一來液冷就突然成了風口?這個熱度是真實的嗎?
這個炙熱的夏天,我們不妨通過液冷的故事,來清涼一下。
時也:真的假的 “元年”?
元年,是個被用濫了的詞,我們聽過太多野心家嘴里的“元年”了。2014“智能家居元年”,買回家的藍牙聯(lián)網(wǎng)電器再也沒有更新過;2015“VR元年”,沒兩年行業(yè)就驟然降溫;2021“元宇宙元年”,一時沸騰,很快就被大家忘在腦后了……
數(shù)據(jù)中心的“液冷元年”,會不會也是曇花一現(xiàn)的概念炒作和噱頭呢?
我們也可以換個角度,來看看那些公認靠譜的“元年”,液冷是不是有雷同的要素加持?
2019被稱為5G商業(yè)應(yīng)用元年,大量5G商用牌照發(fā)放,進入明顯的加速進程——這是政策的強力牽引。
再看液冷,數(shù)據(jù)中心是能源密集型的,隨著雙碳政策的推進,數(shù)字經(jīng)濟加速,工信部提出,2022年全國新建大型數(shù)據(jù)中心PUE要達到1.4以下;“東數(shù)西算”文件進一步要求,東部地區(qū)集群數(shù)據(jù)中心的PUE要控制在1.25以內(nèi),西部地區(qū)在1.2以內(nèi)。在此背景下,數(shù)據(jù)中心“節(jié)能減排”已經(jīng)勢在必行,風冷技術(shù)進步已經(jīng)放緩,液冷開始得到重視,合理。
2022,被稱為AIGC元年,AI作畫爆火,能力開始為全球用戶所接受,歲末年初的大語言模型又添一把火,AIGC進入產(chǎn)業(yè)化應(yīng)用已成必然——這是技術(shù)的成果扎實。
目前,風冷在數(shù)據(jù)中心中仍占主導地位,液冷尚未得到更廣泛的采用,但主流服務(wù)器制造商都在 2022 年陸續(xù)開始建設(shè)標準化規(guī)模生產(chǎn)冷板液冷服務(wù)器的產(chǎn)線,幾乎所有的頭部互聯(lián)網(wǎng)公司都已對液冷技術(shù)密切跟蹤。技術(shù)夯實,成本隨產(chǎn)業(yè)化、標準化、規(guī)?;蠓陆担豪溟_始滲透,有戲。
往遠一點,1956年被稱為“人工智能元年”,是因為麥卡錫、閔斯基、香農(nóng)等知名學者匯聚在達特茅斯會議,群星璀璨——這是高屋建瓴的洞察。
新一輪AI革命已經(jīng)“做實”,當前 AI 正處于史上最長繁榮大周期,而AI計算等高性能應(yīng)用的芯片架構(gòu),熱功率密度急劇上升,CPU已從每個芯片的150瓦增加到300瓦以上,圖形處理單元(GPU)已增加到每個芯片700瓦以上。功率越大,芯片就越熱,冷卻要求也就越高。這些高功率 CPU 和 GPU 被封裝到服務(wù)器中,每個機架產(chǎn)生的熱量就更多了。越來越多計算專家、科學家認同數(shù)據(jù)中心要供給高效綠色低碳的算力,Azure的首席架構(gòu)師Marcus Fontoura指出,5到10年內(nèi),液冷的數(shù)據(jù)中心將成為主流,而不僅僅在超算和比特幣挖礦領(lǐng)域。液冷+DC的長期前景,看好。
從這個幾個判斷依據(jù)來看,“液冷”和數(shù)字經(jīng)濟之間的聯(lián)系密切,成為這一年來數(shù)據(jù)中心行業(yè)的關(guān)鍵詞,“元年”這個詞不是行業(yè)炒作的噱頭,是有真材實料的支撐。
命也:打鐵還需自身硬
或許有人會說:到底還是政策導向,雙碳降PUE的需求,只要機房里空調(diào)夠給力,增加的熱氣一樣會被冷卻,IT設(shè)備照樣好好地很可靠。
確實,只要服務(wù)器入口能保持在17-27攝氏度(64.4° F 和 80.6° F )之間,那管你什么冷卻技術(shù),能抓住老鼠的都是好貓,能降溫就行。液冷能被選中,還是在于自身的技術(shù)先進性。
傳統(tǒng)冷卻方式,氣流對流冷卻,可以簡單統(tǒng)稱為“風冷”。因為都是通過冷空氣與服務(wù)器的發(fā)熱元器件(CPU、圖像處理器、存儲等)進行熱交換,來達到制冷的效果,通常會有機房空調(diào)(CRAC)或機房空氣處理器(CRAH)單元,就類似于大家在家里吹空調(diào),大熱天里涼風習習,想想就美滋滋。所以,數(shù)據(jù)中心有80-90%都是風冷。
吹空調(diào)已經(jīng)很爽了,為什么還要沖“冷水澡”?
液體冷卻,就是通過液體冷媒,將發(fā)熱源的熱量傳遞到遠處,再進行冷卻。
這就是液冷技術(shù)的“天生命好”——技術(shù)更先進。
液體冷媒比空氣的比熱容大,所以液冷的制冷效率和散熱速度,遠遠高于風冷。相當于室溫太高,空調(diào)得吹個十幾分鐘才舒適,而沖涼水一下子就能從頭涼到腳,哪臺高速運轉(zhuǎn)的服務(wù)器能拒絕這種快樂呢?達到同樣的冷卻效果,液冷的電源消耗更小,PUE(電源使用效率)也更低,很多浸沒式液冷數(shù)據(jù)中心的PUE值甚至可以達到1.03~1.05,IT打工人降PUE的績效穩(wěn)了。
液冷元件比風扇的聲音小,所以整個液冷系統(tǒng)的噪聲,也比風冷CRAH單元小,基本可以達到“靜音”效果。想象一下,如果沒有單獨的機房,又要在辦公室里放一臺服務(wù)器,誰坐在嗡嗡嗡的機器旁邊還能安心辦公啊,所以哪怕稍微貴一點,也愿意選液冷。
液冷系統(tǒng)比空氣更可控。風冷“看天吃飯”,外部氣溫變化都可能影響到制冷效果,導致意想不到的故障,液冷就可控多了,只要冷媒不斷不漏,能持續(xù)穩(wěn)定地發(fā)揮冷卻作用。這意味著,像新聞里那樣因為設(shè)備過熱中斷宕機而丟工作的IT倒霉蛋,會少很多。
空調(diào)可樂冰西瓜,是普通人眼里美妙的夏天,而緊緊巴巴擠在機柜服務(wù)器的處理器們,“沖涼”才是最愜意的享受。
運也:液冷來到臨界點Tipping Point
既然液冷這么好用,為什么風冷還是數(shù)據(jù)中心的主流,為什么微軟還要把數(shù)據(jù)中心搬去海底,為什么谷歌不早點向液冷轉(zhuǎn)型?
答案就是,液冷技術(shù)剛剛才來到“臨界點Tipping Point”。
液冷在數(shù)據(jù)中心的應(yīng)用并非新鮮事物,已經(jīng)存在了一段時間。上世紀60年代,IBM大型主機就通過液冷來解決固態(tài)設(shè)備的散熱難題。發(fā)展到本世紀,浸沒式液冷也應(yīng)用在超算、高性能計算場景中,是當之無愧的黑科技。
而普通的數(shù)據(jù)中心機房,開始趨勢性地采用液冷,是近兩年才開始到達“臨界點”。
所謂“Tipping Point”,也被翻譯成轉(zhuǎn)折點、引爆點,指的是某個事物發(fā)展到一定程度,會產(chǎn)生重大且通常不可阻擋的變化,向野火一樣蔓延的神奇時刻。
根據(jù)格拉德威爾的說法,臨界點到來的一個重要因素是“粘性”,即一個事物是不是能夠“粘”在公眾的腦海中,并影響他們的決策行為。
而我們觀察到,近年來液冷行業(yè)的一些變化:
首先,產(chǎn)業(yè)需求的粘性很強。
以往液冷技術(shù)主要應(yīng)用于高性能計算領(lǐng)域,數(shù)據(jù)中心又是一個較為傳統(tǒng)的行業(yè),液冷的部署環(huán)境與傳統(tǒng)的機房有較大的差異,改造成本是很高的——除非它值得。
而AI和數(shù)字化的普及,讓液冷的需求粘性變得跟502一樣黏著。
以谷歌為例,一開始并不愿意采用液冷方案。谷歌數(shù)據(jù)中心副總裁卡瓦曾說:“想象一下,有一排又一排,一排又一排的機架,裝滿了我們的服務(wù)器。我們的硬件運營團隊每天都在那里,升級、維修、部署......如果所有這些服務(wù)器浸泡在數(shù)十萬加侖的礦物油中,日常操作將變得更加復雜?!?/p>
他本人承認,“液冷是非常好的東西,但對于谷歌的大規(guī)模部署,卻不是必需的”。結(jié)果我們都知道,谷歌變了,2018年開始向液冷轉(zhuǎn)型,原因是AI。自從谷歌的AI芯片TPU問世之后,它的并行計算能力強大,也十分耗電,以至于到了TPU 3.0,傳統(tǒng)的空氣冷卻完全不行了。所以,自從 TPU 3.0 在內(nèi)部推出以來,谷歌數(shù)據(jù)中心的工程師就急忙改造基礎(chǔ)設(shè)施以適應(yīng)芯片級液冷,即使這樣會增加成本。
AI所帶來的先進生產(chǎn)力和競爭力,讓風冷轉(zhuǎn)液冷的麻煩和投入,變得非常值得。
其次,技術(shù)的粘性在變強。
每一種新興技術(shù)的規(guī)模應(yīng)用,都需要經(jīng)過長期的實驗和迭代,來保證技術(shù)的實用性、穩(wěn)定性。
近年來我們看到,液冷的技術(shù)也有了非常大的飛躍,使其能夠走向產(chǎn)業(yè)化應(yīng)用。
技術(shù)變化一,芯片級冷卻的突破。
芯片級冷卻,可以直接對發(fā)熱量較大的CPU、GPU,進行針對性地冷卻,這樣制冷更精確,冷卻效果當然也就更出色,可以支持更強大的芯片。而做到芯片冷卻,是非??简炘O(shè)計能力和制造工藝的。目前這方面已經(jīng)有非常多的產(chǎn)品問世,比如阿里云“麒麟”是國內(nèi)第一個嘗試芯片級液態(tài)制冷的產(chǎn)品,將帶有芯片的集成電路板直接浸入液體,有效提升散熱效果。
技術(shù)變化二,冷板式液冷的可靠性加強。
應(yīng)用最為廣泛的冷板式液冷技術(shù),也有非常大的提升。對于冷板式來說,用戶最擔心的就是漏液風險。冷卻液仍存在極小的安全性泄漏隱患,一旦發(fā)生可能引發(fā)嚴重的生產(chǎn)停運事故。
我們看到,頭部廠商已經(jīng)通過提升管路焊接工藝、增加智能漏液監(jiān)測裝置、使用相變等新技術(shù)、液環(huán)式真空CDU系統(tǒng)等,來多角度、全方位防范漏液風險,提升冷板式液冷的可靠性、安全性。
技術(shù)變化三,浸沒式液冷的下沉。
液冷有三種主流方式:冷板式、浸沒式、噴淋式。其中,冷板式最大眾,是應(yīng)用最早的液冷技術(shù),曙光、浪潮、百度、華為等都開始在數(shù)據(jù)中心應(yīng)用冷板式液冷技術(shù);噴淋式最沒存在感,公開的應(yīng)用很少;浸沒式,長期以來是創(chuàng)新性極強的“黑科技”,節(jié)能性強,也是最為昂貴的“高嶺之花”。近年來,浸沒式液冷也開始從超算飛入尋常數(shù)據(jù)中心,有了“技術(shù)下沉”的趨勢。
比如2021 年,微軟研發(fā)了一種非常先進的兩相浸入式液冷方案,將電子元件浸入一桶液體中,這種液體的沸點很低,50°C(122°F)就會沸騰蒸發(fā),吸走設(shè)備運行時產(chǎn)生的熱量,這一技術(shù)已經(jīng)在位于華盛頓州昆西的數(shù)據(jù)中心運行,也讓微軟成為第一家在生產(chǎn)環(huán)境中運行兩相浸入式液冷的云廠商。
國內(nèi),中科曙光此前也已經(jīng)在超算系統(tǒng)中應(yīng)用了浸沒式液體相變的冷卻方式,積累了相應(yīng)的技術(shù)和實踐,并開始將其帶到數(shù)據(jù)中心,阿里也推出了單相變液冷產(chǎn)品。
另一個粘性,體現(xiàn)在成本的顯著下降。
前期的建設(shè)成本。目前國內(nèi)外廠商都開始推出模塊化設(shè)計的冷板式液冷解決方案,各個模塊(外冷設(shè)備、CDU模塊、集群環(huán)網(wǎng)模塊等)獨立設(shè)計、獨立安裝,大大提升了數(shù)據(jù)中心的建設(shè)效率,可以快速部署,省掉很多工時和流程,從而間接降低用戶成本。
后期的維護成本。近年來有實力的頭部廠商開始推出“交鑰匙工程”,提供液冷數(shù)據(jù)中心全生命周期整體解決方案,全線布局、加強服務(wù),來降低綠色數(shù)據(jù)中心的后續(xù)成本。
折中的部署成本。一些傳統(tǒng)的風冷數(shù)據(jù)中心,不能新建機房,改造成本又比較高,難道就只能望洋興嘆了嗎?液冷產(chǎn)業(yè)還真想出辦法了,有廠商的液冷產(chǎn)品支持風液混布,風冷和液冷分別處于不同的子機房,互相之間獨立無干擾,一樣可以達到降PUE的效果,同時無需改造風冷機房,避免了樓梯改造、空間重布的麻煩。
需求強勁、技術(shù)可用、成本下降,液冷近年來的創(chuàng)新確實是踩在了時代的韻腳,黏住了數(shù)據(jù)中心,也黏住了基礎(chǔ)設(shè)施廠商。曙光、華為、聯(lián)想、阿里云、浪潮、寧暢等知名廠商紛紛發(fā)力,熱度看來還能再持續(xù)一陣。
能也:命運掌握在誰手里?
有句老話,時也命也運也,非吾所能也。成功有時候靠的是天命和運勢等,超出了個人的掌控能力。表現(xiàn)在科技領(lǐng)域,就是那些站在新技術(shù)浪潮之巔的企業(yè),往往能隨著時代巨浪向前發(fā)展。
這是不是說,只要抓住“液冷”這個概念,就能吃到數(shù)據(jù)中心行業(yè)接下來的紅利呢?
歸根結(jié)底,要站上時代之巔確實有運勢一說,不全看真本事,但不能沒有真本事。
2022年以來,廠商都在將液冷列入戰(zhàn)略規(guī)劃,加大投入力度,我們能隔三岔五聽到液冷的產(chǎn)品與解決方案發(fā)布,隱隱有著全行業(yè)開花的趨勢。
然而必須承認的是,大眾對液冷的關(guān)注,很大一部分來自雙碳政策的壓力,追求數(shù)據(jù)中心節(jié)能的“政策正確”,企業(yè)必須在壓力下去更新IT基礎(chǔ)設(shè)施是“液冷”邏輯成立的前提。
而商業(yè)邏輯之外,我們更應(yīng)該看到,液冷技術(shù)大規(guī)模商用的瓶頸,才能更好判斷,哪些企業(yè)是真的能交付成熟的產(chǎn)品,哪些企業(yè)是將“液冷”作為一種趨勢在對客戶宣講。
第一個門檻,就是長時間投入的定力。
液冷數(shù)據(jù)中心是典型的技術(shù)密集型產(chǎn)業(yè),需要參與者有多年的研發(fā)經(jīng)驗,來積累和掌握前沿技術(shù),較高的研發(fā)費用決定了這只可能是少數(shù)頭部廠商的游戲,還是要跟進微軟、谷歌、華為、阿里、浪潮、曙光、聯(lián)想等頭部廠商的動態(tài)。尤其液冷數(shù)據(jù)中心的落地部署都是近年來才完成,缺乏長周期、大規(guī)模的驗證,比如浸沒式液冷還有很多技術(shù)規(guī)范是空缺狀態(tài),這些企業(yè)的發(fā)展布局較早,使用過程中的可靠性更有保障。
第二個門檻,是標準化和定制化的平衡。
沒有標準化、規(guī)范化的產(chǎn)品設(shè)計和制造能力,產(chǎn)品和解決方案的成本很難被攤薄,后續(xù)的擴展和適配也可能存在隱患。與此同時,數(shù)據(jù)中心的規(guī)模不同、承載的業(yè)務(wù)負載也不同,比如用來進行AI大模型訓練的企業(yè)級數(shù)據(jù)中心,和小型數(shù)據(jù)中心,對液冷服務(wù)器產(chǎn)品的需求截然不同,電力系統(tǒng)、能源條件、能效目標等指標也各不相同,這又要求企業(yè)能夠針對性地定制產(chǎn)品和解決方案,滿足多元化的需求,非標產(chǎn)品也能做到成本可控,這非??简瀼S商的精益生產(chǎn)。
第三個瓶頸,是軟實力的充分完善。
數(shù)據(jù)中心采用液冷技術(shù)和產(chǎn)品涉及到復雜的規(guī)劃、改造、運維等工作,基礎(chǔ)設(shè)施廠商不僅要能提供過硬的硬件產(chǎn)品,軟實力也必須過關(guān)。一方面,是足夠全面,通過全生命周期從規(guī)劃到運維的服務(wù),為客戶解決全系統(tǒng)環(huán)節(jié)可能出現(xiàn)的問題,充分保障液冷數(shù)據(jù)中心的可靠運行。另一個是足夠高效,通過人工智能等技術(shù)提高服務(wù)器利用效率,能耗治理不是“引入液冷,萬事大吉”,還要通過電力網(wǎng)、算力網(wǎng)和熱力網(wǎng)的協(xié)同優(yōu)化,構(gòu)建最優(yōu)能耗體系。谷歌使用DeepMind AI產(chǎn)品在40個月內(nèi)將冷卻能耗減少了18%。此外,足夠多的朋友。液冷是非常需要產(chǎn)業(yè)鏈協(xié)作的,從上游的冷卻液、芯片供應(yīng)商到部件生產(chǎn)商、下游的ISV經(jīng)銷伙伴,擁有一個友好開放的朋友圈,確保供應(yīng)鏈的韌性和最終交付效果也是“軟實力”的體現(xiàn)。
從長遠來看,面向算力時代,液冷本身的前景遠大是真實的,不過短時間內(nèi),產(chǎn)業(yè)條件和應(yīng)用性還有待加強,必定是先經(jīng)過一個個示范案例落地的逐步驗證和經(jīng)驗積累,最終一步步過渡到全液冷、全綠色的產(chǎn)業(yè)革命。
液冷來到臨界點,后面必然是巨大變化的開始。數(shù)據(jù)中心和一個涼爽的夏天,距離已經(jīng)不遠了。