文|光錐智能 姚 悅
編輯|王一粟
一進入部署了液冷服務器的數(shù)據(jù)中心,不僅沒有嘈雜的風扇聲,甚至在不開空調(diào)的夏日也完全沒有悶熱感。
在大模型引發(fā)“暴力計算”的熱潮下,數(shù)據(jù)中心的上下游,正在加緊推進液冷“降溫”。
半年來,服務器廠商在液冷產(chǎn)品上紛紛推出新的解決方案。比如,中興通訊的新G5系列服務器,支持不同的冷板式液冷方案,從CPU液冷到內(nèi)存條散熱+VR液冷;聯(lián)想升級海神溫水水冷系統(tǒng),可實現(xiàn)服務器全水冷無風扇設計;新華三也發(fā)布全棧液冷解決方案,包含G6系列服務器、核心路由器、接入交換機;中科曙光子公司曙光數(shù)創(chuàng)8月發(fā)布了“冷平衡”戰(zhàn)略,是特別針對數(shù)據(jù)中心算力、成本、能耗三元平衡問題,推出的全棧液冷數(shù)據(jù)中心技術與全生命周期一站式服務;去年年底華為推出全場景液冷“天成”多樣性算力平臺。今年,華為昇騰再推集成天成液冷的算力集群,可以支持萬卡規(guī)模。
“在‘東數(shù)西算’‘雙碳’大背景下,不斷提升的功率密度和PUE(能效指標,越接近1越優(yōu))設計要求已成為行業(yè)面臨的主要問題,液冷技術具有高密低碳等優(yōu)勢,已經(jīng)成為應對數(shù)據(jù)中心散熱壓力和節(jié)能挑戰(zhàn)的必由之路?!敝信d通訊數(shù)據(jù)中心產(chǎn)品線規(guī)劃總工翁建剛表示。
而就在去年,面對液冷,當上游設備廠商活躍時,中游的數(shù)據(jù)中心還顧慮重重,保持觀望。但現(xiàn)在,像企商在線這樣的中游企業(yè)也已經(jīng)積極規(guī)劃液冷設施,足見液冷已經(jīng)成為行業(yè)共識。
企商在線IDC能力中心售前經(jīng)理徐濤對光錐智能表示,公司已經(jīng)在接管客戶的一些AI業(yè)務,AI服務器的功耗是通用服務器功耗的十倍左右,風冷的局限性日漸明顯,必須嘗試液冷。
服務器廠商的積極布局,很大程度上來源于客戶的需求逐漸明朗。
數(shù)據(jù)中心占有半壁江山的三大電信運營商在6月親自下場,聯(lián)合發(fā)布《白皮書》,提出“三年景愿”:即2023年開展液冷技術驗證;2024年開展規(guī)模測試,新建數(shù)據(jù)中心項目10%規(guī)模試點應用液冷技術,推進產(chǎn)業(yè)生態(tài)成熟;2025年及以后開展規(guī)模應用,50%以上數(shù)據(jù)中心項目應用液冷技術。
“現(xiàn)在液冷基本上所有內(nèi)容已經(jīng)通過驗證,進入一個規(guī)模擴張的階段?!苯冢ば挪恐睂傺芯繖C構(gòu)賽迪顧問的液冷領域分析師袁鈺明確當前液冷所處階段。
其實,液冷并不是新技術,其早已被應用于工業(yè)、航空領域。一說,阿波羅登月計劃,就將液冷用于宇航員體溫控制。在數(shù)據(jù)中心領域,液冷在上世紀60-90年代就嶄露頭角。但后來隨著計算技術迭代功耗下跌,又被“冷落”。
從被“冷落”到“翻紅”,液冷經(jīng)歷了什么,又將面對什么新挑戰(zhàn)?
“暴力計算”亟需液冷降溫
風冷是過去很長時間內(nèi),數(shù)據(jù)中心的主流溫控方案,以空氣為冷卻媒介。液冷和風冷最大的區(qū)別,就是冷卻媒介不同,“液冷”利用礦物油、氟化液等絕緣低沸點的冷卻液作為冷媒,通過熱交換將服務器的熱量排出。完全絕緣、無腐蝕性的冷液,單位體積價格堪比茅臺、五糧液。
液冷之所以被數(shù)據(jù)中心重新重視,根本原因是,后摩爾定律時代,芯片、服務器的功耗再呈上升趨勢,隨之產(chǎn)生更高的溫度。
“那一次更讓我深刻理解了溫度對于服務器的影響?!庇兄嗄闕DC售前經(jīng)驗的徐濤回憶從業(yè)過程中遇到的設備散熱對服務器運行影響的問題,“客戶規(guī)劃的服務器功耗100多瓦,實際裝的300多瓦,而且單機柜實際密度也比規(guī)劃高,結(jié)果測出服務器溫度到了六七十度,直接導致故障率是原來的10倍。”
圖源曙光數(shù)創(chuàng)招股書
針對數(shù)據(jù)中心高溫問題,頭部設備廠商更加大力推進液冷,目的大多集中在降低PUE,具體則從技術、方案等不同角度著力。
據(jù)媒體此前報道,中興通訊建設的全液冷數(shù)據(jù)中心項目中,液冷散熱的比例已經(jīng)達到了70%。公司今年1月發(fā)布的G5系列服務器新品支持液冷散熱技術,采用冷板式液冷散熱,可實現(xiàn)數(shù)據(jù)中心PUE降至1.1,冷板&管路高可靠連接,全管路智能監(jiān)控,漏液秒級告警。
聯(lián)想則從液體溫度著眼,首創(chuàng)海神溫水全水冷技術。不同于常見的45-50攝氏度的技術,聯(lián)想通過數(shù)據(jù)分析,認為進水50攝氏度、出水60攝氏度,可以獲得最佳能耗比。海神溫水全水冷技術實現(xiàn)了服務器全水冷無風扇設計,支持多類型GPU,散熱效率達98%,甚至可以支持數(shù)據(jù)中心PUE降至1.1以下。
后摩爾定律時代,芯片的功率越來越高。尤其是大模型帶來的“暴力計算”,例如,用于訓練ChatGPT的英偉達 A100服務器的最大功耗已達6.5kW。而此前,傳統(tǒng)的服務器功率400W左右已經(jīng)算很高。
與此同時,AI產(chǎn)業(yè)快速發(fā)展,致使算力需求飆升。但受制于建設面積等客觀因素,增加單機柜功率密度,成為調(diào)和快速的算力需求與有限數(shù)據(jù)中心承載力的共識方案。
服務器功耗越來越大,溫度越來越高,所占空間越來越小??梢韵胂笠幌?,一堆愛出汗的人,擠在狹小的屋子。
越來越高的溫度對于服務器來說是非常大的隱患。
“芯片溫度每升高10度,故障率就會翻倍,壽命也會減半?!毙鞚f,所以散熱已經(jīng)是當前智算面臨的最大問題之一。
但是,風冷已經(jīng)被逼近甚至突破極限。每機柜15-25kW的功率密度是“未使用背板換熱器等其他制冷設備”的風冷解決方案上限,僅勉強扛得住2-4個NVIDIA A100。
華為集群計算業(yè)務副總裁王振華表示,當芯片的典型功耗超過300W,每平方厘米的功耗超過90W的時候,風冷難以為繼。而當前業(yè)界的主流芯片產(chǎn)品,功耗已經(jīng)超過這個閾值。
“機柜密度不斷提升,會帶來整個制冷系統(tǒng)的造價成本提升。”曙光數(shù)創(chuàng)總裁何繼盛表示,“甚至單機柜的功率密度達到一定程度,繼續(xù)增加投資都不能滿足數(shù)據(jù)中心的散熱需求。”
另一方面,隨著“碳達峰”、“碳中和”等戰(zhàn)略落地,國家到地方對于PUE明確的“紅線”,成為刺激液冷產(chǎn)業(yè)加速更為直接的原因。
4月,多部門發(fā)文,2023年6月起數(shù)據(jù)中心PUE不高于1.4,2025年起數(shù)據(jù)中心不高于1.3,當前行業(yè)平均PUE為1.5。更多的地方政策,則對數(shù)據(jù)中心提出了更加嚴格的要求。
相比之下,液冷的單位體積的比熱容足有風冷的1000倍以上。(比熱容越大的物質(zhì),溫度每上升1攝氏度,所吸收的熱量越多);液冷PUE普遍在1.1,甚至不斷逼近1.0。
新華三已經(jīng)設計了PUE15kW時,冷板式液冷TCO優(yōu)勢明顯,當單機柜功率>30kW時,浸沒式液冷開始出現(xiàn)優(yōu)勢。
此外,無論任何一種液冷路線,相較風冷,都已經(jīng)在節(jié)省電和空間上具備成本優(yōu)勢。
根據(jù)開源證券研究所的統(tǒng)計結(jié)果,一個數(shù)據(jù)中心的能耗分布中,散熱系統(tǒng)的占比高達40%。也就是說,數(shù)據(jù)中心每耗費一度電,只有一半用在了“計算”上,其他的則浪費在了散熱、照明等方面。計算和散熱幾乎陷入了一場零和博弈,計算量越大散熱消耗的電量越大。
華為昇騰AI計算集群也已經(jīng)采用液冷散熱。液冷方案本就比傳統(tǒng)風冷方案更省電,昇騰采用了直接把冷夜注入每塊芯片的精準供給方式,相比浸沒式,可以降低日常運維的成本。
“精準供給取決于芯片板卡上都設置傳感器、電控閥門,再加上中央控制,可以實現(xiàn)為不同芯片在不同的負荷下,提供精細化冷量輸送?!北本N騰人工智能生態(tài)創(chuàng)新中心CTO楊光向光錐智能介紹。
華為昇騰門頭溝數(shù)據(jù)中心,拍攝:光錐智能
阿里云技術專家王鵬曾表示,如果全國的數(shù)據(jù)中心都采用浸沒液冷技術,預計到2025年,一年可節(jié)省上千億度電。
液冷散熱效果強大,數(shù)據(jù)中心不用采用疏密手段。尤其是對于一二線的數(shù)據(jù)中心來說,液冷的空間成本更突出。
徐濤透露,他們有數(shù)據(jù)中心,因為接了一些AI業(yè)務,原來規(guī)劃246個機柜,但現(xiàn)在GPU服務器增多,為了避免數(shù)據(jù)中心溫度過高,只能進行疏密,所以一下就砍到了六七十個機柜。但石景山區(qū)的數(shù)據(jù)中心上了液冷設備空間利用率就會大幅提升,同時可以降低數(shù)據(jù)中心的PUE,降低能耗水平。
“二三線城市的建筑成本為數(shù)千元,北京的建筑成本為數(shù)萬元,空間成本可以說非常高。”徐濤表示,雖然目前液冷單千瓦成本較風冷高,但考慮到空間利用率以及節(jié)省的電費,液冷制冷方案,還是值得投入的。
規(guī)模擴張還需跨越“百標大戰(zhàn)”
雖然已經(jīng)初步跨過降本這道欄,接下來液冷擴張卻還要面臨新的問題——“百標大戰(zhàn)”。
以冷板式液冷為例,主要包括機柜與服務器,交付方式分為兩種,一體化交付與解耦交付。解耦交付是液冷機柜與液冷服務器之間遵循用戶統(tǒng)一制定的接口設計規(guī)范,機柜與服務器解耦,可由不同廠商交付;一體化交付是液冷整機柜(包括機柜和服務器)由廠商自定標準進行集成設計開發(fā),整機柜由同一廠商一體化交付。
液冷產(chǎn)業(yè)鏈尚不成熟,當前業(yè)內(nèi)尚無服務器統(tǒng)一接口標準,各廠商產(chǎn)品及配件設計標準各異。兩種交付背后充滿了各方博弈。
對于廠商來說,一體化解決方案的成本一定是更低,開發(fā)和交付周期大幅縮短。更重要的是,為了形成客戶壁壘,廠商也多選擇以產(chǎn)品一體化的交付模式為主。這導致各廠商的產(chǎn)品之間兼容性差。
不過,數(shù)據(jù)中心用戶會對一體化交付充滿顧慮。
一方面,用戶會有遷移需求,比如達成新戰(zhàn)略合作,或者原本就是臨時租用機柜,以及后續(xù)機柜需要擴容等。如果液冷的設施綁定,遷移成本會增加。另一方面,設備與設施綁定,可能會讓用戶失去議價權。一次性批量采購,設備更新速度快,大概率只能保持固定供應商,如果選擇其他產(chǎn)品,還需要對基礎設施進行改造。
因此,考慮到用戶需求,數(shù)據(jù)中心不愿意接受一體化方案,就會要求設備廠商解耦。畢竟設備廠商目前還處于充分競爭階段,廠商也就不得不解耦交付。
當前超聚變、華為、浪潮、曙光、新華三等主要液冷服務器廠商皆擁有自己的一體化交付方案與解耦交付方案。
不過,解耦是能解,解耦也可帶來供應商多樣化,有助于控制成本,能夠讓各供應商發(fā)揮自身優(yōu)勢。但是解耦要求甲方協(xié)調(diào)各個供應商做好對接,過程就會非常耗時耗力?!懊恳粋€環(huán)節(jié)都得多方密切溝通,也得緊盯落實,一旦出現(xiàn)一點差錯,就導致系統(tǒng)性問題?!毙鞚f,相對于一體化交付,沒有行業(yè)標準,解耦就會變成項目制。
各方拉鋸中,首當其沖的就會是設備廠商。
曙光數(shù)創(chuàng)是國內(nèi)最早布局液冷的企業(yè),液冷基礎設施市占率接近6成。但曙光數(shù)創(chuàng)今年年中報顯示,冷板液冷數(shù)據(jù)中心基礎設施產(chǎn)品,營收收入同比減少42.55%,營收成本同比減少33.63%,毛利率同比減少11.14%。年報中解釋,收入波動的原因是,公司產(chǎn)品是非標準產(chǎn)品,但目前數(shù)據(jù)中心建設標準各異。繼而,下游會因為種種問題,猶豫嘗試液冷方案,導致液冷推廣遇阻。
曙光數(shù)創(chuàng)也呼吁行業(yè)統(tǒng)一標準。張鵬表示,首先如果行業(yè)標準對于供水的溫度、溫差、壓力等能夠統(tǒng)一,對液冷成本進一步下降是非常有意義的,也是他們在實際落地中遇到的問題。
不過,行業(yè)的標準形成并不會一蹴而就。而徐濤認為,各方博弈的滾動過程,行業(yè)的發(fā)展難免會有波折很有可能“進三步退一步”。當然,這也是新興技術必然經(jīng)歷的過程。
華為昇騰已經(jīng)宣布將會發(fā)布業(yè)界首個萬卡級的集群,也將配套液冷方案,使用天成平臺采用的“液冷+電源+網(wǎng)絡”三條總線的設計思路。
企商在線石景山公共算力中心預計明年8月就交付,雖然還沒有行業(yè)標準落實,企商在線則選擇部分高功耗算力采用液冷方式一體化建設,然后直接租算力給客戶。
徐濤表示,后續(xù)隨著行業(yè)發(fā)展一定會有新的方案,考慮到芯片功耗越來越高,風冷能力有限,同時“碳達峰”“碳中和”的要求,液冷作為確定趨勢,當前先做起來比較重要。