文|光錐智能 姚 悅
編輯|王一粟
一進(jìn)入部署了液冷服務(wù)器的數(shù)據(jù)中心,不僅沒有嘈雜的風(fēng)扇聲,甚至在不開空調(diào)的夏日也完全沒有悶熱感。
在大模型引發(fā)“暴力計(jì)算”的熱潮下,數(shù)據(jù)中心的上下游,正在加緊推進(jìn)液冷“降溫”。
半年來,服務(wù)器廠商在液冷產(chǎn)品上紛紛推出新的解決方案。比如,中興通訊的新G5系列服務(wù)器,支持不同的冷板式液冷方案,從CPU液冷到內(nèi)存條散熱+VR液冷;聯(lián)想升級(jí)海神溫水水冷系統(tǒng),可實(shí)現(xiàn)服務(wù)器全水冷無風(fēng)扇設(shè)計(jì);新華三也發(fā)布全棧液冷解決方案,包含G6系列服務(wù)器、核心路由器、接入交換機(jī);中科曙光子公司曙光數(shù)創(chuàng)8月發(fā)布了“冷平衡”戰(zhàn)略,是特別針對(duì)數(shù)據(jù)中心算力、成本、能耗三元平衡問題,推出的全棧液冷數(shù)據(jù)中心技術(shù)與全生命周期一站式服務(wù);去年年底華為推出全場景液冷“天成”多樣性算力平臺(tái)。今年,華為昇騰再推集成天成液冷的算力集群,可以支持萬卡規(guī)模。
“在‘東數(shù)西算’‘雙碳’大背景下,不斷提升的功率密度和PUE(能效指標(biāo),越接近1越優(yōu))設(shè)計(jì)要求已成為行業(yè)面臨的主要問題,液冷技術(shù)具有高密低碳等優(yōu)勢,已經(jīng)成為應(yīng)對(duì)數(shù)據(jù)中心散熱壓力和節(jié)能挑戰(zhàn)的必由之路?!敝信d通訊數(shù)據(jù)中心產(chǎn)品線規(guī)劃總工翁建剛表示。
而就在去年,面對(duì)液冷,當(dāng)上游設(shè)備廠商活躍時(shí),中游的數(shù)據(jù)中心還顧慮重重,保持觀望。但現(xiàn)在,像企商在線這樣的中游企業(yè)也已經(jīng)積極規(guī)劃液冷設(shè)施,足見液冷已經(jīng)成為行業(yè)共識(shí)。
企商在線IDC能力中心售前經(jīng)理徐濤對(duì)光錐智能表示,公司已經(jīng)在接管客戶的一些AI業(yè)務(wù),AI服務(wù)器的功耗是通用服務(wù)器功耗的十倍左右,風(fēng)冷的局限性日漸明顯,必須嘗試液冷。
服務(wù)器廠商的積極布局,很大程度上來源于客戶的需求逐漸明朗。
數(shù)據(jù)中心占有半壁江山的三大電信運(yùn)營商在6月親自下場,聯(lián)合發(fā)布《白皮書》,提出“三年景愿”:即2023年開展液冷技術(shù)驗(yàn)證;2024年開展規(guī)模測試,新建數(shù)據(jù)中心項(xiàng)目10%規(guī)模試點(diǎn)應(yīng)用液冷技術(shù),推進(jìn)產(chǎn)業(yè)生態(tài)成熟;2025年及以后開展規(guī)模應(yīng)用,50%以上數(shù)據(jù)中心項(xiàng)目應(yīng)用液冷技術(shù)。
“現(xiàn)在液冷基本上所有內(nèi)容已經(jīng)通過驗(yàn)證,進(jìn)入一個(gè)規(guī)模擴(kuò)張的階段?!苯?,工信部直屬研究機(jī)構(gòu)賽迪顧問的液冷領(lǐng)域分析師袁鈺明確當(dāng)前液冷所處階段。
其實(shí),液冷并不是新技術(shù),其早已被應(yīng)用于工業(yè)、航空領(lǐng)域。一說,阿波羅登月計(jì)劃,就將液冷用于宇航員體溫控制。在數(shù)據(jù)中心領(lǐng)域,液冷在上世紀(jì)60-90年代就嶄露頭角。但后來隨著計(jì)算技術(shù)迭代功耗下跌,又被“冷落”。
從被“冷落”到“翻紅”,液冷經(jīng)歷了什么,又將面對(duì)什么新挑戰(zhàn)?
“暴力計(jì)算”亟需液冷降溫
風(fēng)冷是過去很長時(shí)間內(nèi),數(shù)據(jù)中心的主流溫控方案,以空氣為冷卻媒介。液冷和風(fēng)冷最大的區(qū)別,就是冷卻媒介不同,“液冷”利用礦物油、氟化液等絕緣低沸點(diǎn)的冷卻液作為冷媒,通過熱交換將服務(wù)器的熱量排出。完全絕緣、無腐蝕性的冷液,單位體積價(jià)格堪比茅臺(tái)、五糧液。
液冷之所以被數(shù)據(jù)中心重新重視,根本原因是,后摩爾定律時(shí)代,芯片、服務(wù)器的功耗再呈上升趨勢,隨之產(chǎn)生更高的溫度。
“那一次更讓我深刻理解了溫度對(duì)于服務(wù)器的影響。”有著十余年IDC售前經(jīng)驗(yàn)的徐濤回憶從業(yè)過程中遇到的設(shè)備散熱對(duì)服務(wù)器運(yùn)行影響的問題,“客戶規(guī)劃的服務(wù)器功耗100多瓦,實(shí)際裝的300多瓦,而且單機(jī)柜實(shí)際密度也比規(guī)劃高,結(jié)果測出服務(wù)器溫度到了六七十度,直接導(dǎo)致故障率是原來的10倍?!?/p>
圖源曙光數(shù)創(chuàng)招股書
針對(duì)數(shù)據(jù)中心高溫問題,頭部設(shè)備廠商更加大力推進(jìn)液冷,目的大多集中在降低PUE,具體則從技術(shù)、方案等不同角度著力。
據(jù)媒體此前報(bào)道,中興通訊建設(shè)的全液冷數(shù)據(jù)中心項(xiàng)目中,液冷散熱的比例已經(jīng)達(dá)到了70%。公司今年1月發(fā)布的G5系列服務(wù)器新品支持液冷散熱技術(shù),采用冷板式液冷散熱,可實(shí)現(xiàn)數(shù)據(jù)中心PUE降至1.1,冷板&管路高可靠連接,全管路智能監(jiān)控,漏液秒級(jí)告警。
聯(lián)想則從液體溫度著眼,首創(chuàng)海神溫水全水冷技術(shù)。不同于常見的45-50攝氏度的技術(shù),聯(lián)想通過數(shù)據(jù)分析,認(rèn)為進(jìn)水50攝氏度、出水60攝氏度,可以獲得最佳能耗比。海神溫水全水冷技術(shù)實(shí)現(xiàn)了服務(wù)器全水冷無風(fēng)扇設(shè)計(jì),支持多類型GPU,散熱效率達(dá)98%,甚至可以支持?jǐn)?shù)據(jù)中心PUE降至1.1以下。
后摩爾定律時(shí)代,芯片的功率越來越高。尤其是大模型帶來的“暴力計(jì)算”,例如,用于訓(xùn)練ChatGPT的英偉達(dá) A100服務(wù)器的最大功耗已達(dá)6.5kW。而此前,傳統(tǒng)的服務(wù)器功率400W左右已經(jīng)算很高。
與此同時(shí),AI產(chǎn)業(yè)快速發(fā)展,致使算力需求飆升。但受制于建設(shè)面積等客觀因素,增加單機(jī)柜功率密度,成為調(diào)和快速的算力需求與有限數(shù)據(jù)中心承載力的共識(shí)方案。
服務(wù)器功耗越來越大,溫度越來越高,所占空間越來越小。可以想象一下,一堆愛出汗的人,擠在狹小的屋子。
越來越高的溫度對(duì)于服務(wù)器來說是非常大的隱患。
“芯片溫度每升高10度,故障率就會(huì)翻倍,壽命也會(huì)減半。”徐濤說,所以散熱已經(jīng)是當(dāng)前智算面臨的最大問題之一。
但是,風(fēng)冷已經(jīng)被逼近甚至突破極限。每機(jī)柜15-25kW的功率密度是“未使用背板換熱器等其他制冷設(shè)備”的風(fēng)冷解決方案上限,僅勉強(qiáng)扛得住2-4個(gè)NVIDIA A100。
華為集群計(jì)算業(yè)務(wù)副總裁王振華表示,當(dāng)芯片的典型功耗超過300W,每平方厘米的功耗超過90W的時(shí)候,風(fēng)冷難以為繼。而當(dāng)前業(yè)界的主流芯片產(chǎn)品,功耗已經(jīng)超過這個(gè)閾值。
“機(jī)柜密度不斷提升,會(huì)帶來整個(gè)制冷系統(tǒng)的造價(jià)成本提升?!笔锕鈹?shù)創(chuàng)總裁何繼盛表示,“甚至單機(jī)柜的功率密度達(dá)到一定程度,繼續(xù)增加投資都不能滿足數(shù)據(jù)中心的散熱需求?!?/p>
另一方面,隨著“碳達(dá)峰”、“碳中和”等戰(zhàn)略落地,國家到地方對(duì)于PUE明確的“紅線”,成為刺激液冷產(chǎn)業(yè)加速更為直接的原因。
4月,多部門發(fā)文,2023年6月起數(shù)據(jù)中心PUE不高于1.4,2025年起數(shù)據(jù)中心不高于1.3,當(dāng)前行業(yè)平均PUE為1.5。更多的地方政策,則對(duì)數(shù)據(jù)中心提出了更加嚴(yán)格的要求。
相比之下,液冷的單位體積的比熱容足有風(fēng)冷的1000倍以上。(比熱容越大的物質(zhì),溫度每上升1攝氏度,所吸收的熱量越多);液冷PUE普遍在1.1,甚至不斷逼近1.0。
新華三已經(jīng)設(shè)計(jì)了PUE15kW時(shí),冷板式液冷TCO優(yōu)勢明顯,當(dāng)單機(jī)柜功率>30kW時(shí),浸沒式液冷開始出現(xiàn)優(yōu)勢。
此外,無論任何一種液冷路線,相較風(fēng)冷,都已經(jīng)在節(jié)省電和空間上具備成本優(yōu)勢。
根據(jù)開源證券研究所的統(tǒng)計(jì)結(jié)果,一個(gè)數(shù)據(jù)中心的能耗分布中,散熱系統(tǒng)的占比高達(dá)40%。也就是說,數(shù)據(jù)中心每耗費(fèi)一度電,只有一半用在了“計(jì)算”上,其他的則浪費(fèi)在了散熱、照明等方面。計(jì)算和散熱幾乎陷入了一場零和博弈,計(jì)算量越大散熱消耗的電量越大。
華為昇騰AI計(jì)算集群也已經(jīng)采用液冷散熱。液冷方案本就比傳統(tǒng)風(fēng)冷方案更省電,昇騰采用了直接把冷夜注入每塊芯片的精準(zhǔn)供給方式,相比浸沒式,可以降低日常運(yùn)維的成本。
“精準(zhǔn)供給取決于芯片板卡上都設(shè)置傳感器、電控閥門,再加上中央控制,可以實(shí)現(xiàn)為不同芯片在不同的負(fù)荷下,提供精細(xì)化冷量輸送?!北本N騰人工智能生態(tài)創(chuàng)新中心CTO楊光向光錐智能介紹。
華為昇騰門頭溝數(shù)據(jù)中心,拍攝:光錐智能
阿里云技術(shù)專家王鵬曾表示,如果全國的數(shù)據(jù)中心都采用浸沒液冷技術(shù),預(yù)計(jì)到2025年,一年可節(jié)省上千億度電。
液冷散熱效果強(qiáng)大,數(shù)據(jù)中心不用采用疏密手段。尤其是對(duì)于一二線的數(shù)據(jù)中心來說,液冷的空間成本更突出。
徐濤透露,他們有數(shù)據(jù)中心,因?yàn)榻恿艘恍〢I業(yè)務(wù),原來規(guī)劃246個(gè)機(jī)柜,但現(xiàn)在GPU服務(wù)器增多,為了避免數(shù)據(jù)中心溫度過高,只能進(jìn)行疏密,所以一下就砍到了六七十個(gè)機(jī)柜。但石景山區(qū)的數(shù)據(jù)中心上了液冷設(shè)備空間利用率就會(huì)大幅提升,同時(shí)可以降低數(shù)據(jù)中心的PUE,降低能耗水平。
“二三線城市的建筑成本為數(shù)千元,北京的建筑成本為數(shù)萬元,空間成本可以說非常高?!毙鞚硎荆m然目前液冷單千瓦成本較風(fēng)冷高,但考慮到空間利用率以及節(jié)省的電費(fèi),液冷制冷方案,還是值得投入的。
規(guī)模擴(kuò)張還需跨越“百標(biāo)大戰(zhàn)”
雖然已經(jīng)初步跨過降本這道欄,接下來液冷擴(kuò)張卻還要面臨新的問題——“百標(biāo)大戰(zhàn)”。
以冷板式液冷為例,主要包括機(jī)柜與服務(wù)器,交付方式分為兩種,一體化交付與解耦交付。解耦交付是液冷機(jī)柜與液冷服務(wù)器之間遵循用戶統(tǒng)一制定的接口設(shè)計(jì)規(guī)范,機(jī)柜與服務(wù)器解耦,可由不同廠商交付;一體化交付是液冷整機(jī)柜(包括機(jī)柜和服務(wù)器)由廠商自定標(biāo)準(zhǔn)進(jìn)行集成設(shè)計(jì)開發(fā),整機(jī)柜由同一廠商一體化交付。
液冷產(chǎn)業(yè)鏈尚不成熟,當(dāng)前業(yè)內(nèi)尚無服務(wù)器統(tǒng)一接口標(biāo)準(zhǔn),各廠商產(chǎn)品及配件設(shè)計(jì)標(biāo)準(zhǔn)各異。兩種交付背后充滿了各方博弈。
對(duì)于廠商來說,一體化解決方案的成本一定是更低,開發(fā)和交付周期大幅縮短。更重要的是,為了形成客戶壁壘,廠商也多選擇以產(chǎn)品一體化的交付模式為主。這導(dǎo)致各廠商的產(chǎn)品之間兼容性差。
不過,數(shù)據(jù)中心用戶會(huì)對(duì)一體化交付充滿顧慮。
一方面,用戶會(huì)有遷移需求,比如達(dá)成新戰(zhàn)略合作,或者原本就是臨時(shí)租用機(jī)柜,以及后續(xù)機(jī)柜需要擴(kuò)容等。如果液冷的設(shè)施綁定,遷移成本會(huì)增加。另一方面,設(shè)備與設(shè)施綁定,可能會(huì)讓用戶失去議價(jià)權(quán)。一次性批量采購,設(shè)備更新速度快,大概率只能保持固定供應(yīng)商,如果選擇其他產(chǎn)品,還需要對(duì)基礎(chǔ)設(shè)施進(jìn)行改造。
因此,考慮到用戶需求,數(shù)據(jù)中心不愿意接受一體化方案,就會(huì)要求設(shè)備廠商解耦。畢竟設(shè)備廠商目前還處于充分競爭階段,廠商也就不得不解耦交付。
當(dāng)前超聚變、華為、浪潮、曙光、新華三等主要液冷服務(wù)器廠商皆擁有自己的一體化交付方案與解耦交付方案。
不過,解耦是能解,解耦也可帶來供應(yīng)商多樣化,有助于控制成本,能夠讓各供應(yīng)商發(fā)揮自身優(yōu)勢。但是解耦要求甲方協(xié)調(diào)各個(gè)供應(yīng)商做好對(duì)接,過程就會(huì)非常耗時(shí)耗力?!懊恳粋€(gè)環(huán)節(jié)都得多方密切溝通,也得緊盯落實(shí),一旦出現(xiàn)一點(diǎn)差錯(cuò),就導(dǎo)致系統(tǒng)性問題。”徐濤說,相對(duì)于一體化交付,沒有行業(yè)標(biāo)準(zhǔn),解耦就會(huì)變成項(xiàng)目制。
各方拉鋸中,首當(dāng)其沖的就會(huì)是設(shè)備廠商。
曙光數(shù)創(chuàng)是國內(nèi)最早布局液冷的企業(yè),液冷基礎(chǔ)設(shè)施市占率接近6成。但曙光數(shù)創(chuàng)今年年中報(bào)顯示,冷板液冷數(shù)據(jù)中心基礎(chǔ)設(shè)施產(chǎn)品,營收收入同比減少42.55%,營收成本同比減少33.63%,毛利率同比減少11.14%。年報(bào)中解釋,收入波動(dòng)的原因是,公司產(chǎn)品是非標(biāo)準(zhǔn)產(chǎn)品,但目前數(shù)據(jù)中心建設(shè)標(biāo)準(zhǔn)各異。繼而,下游會(huì)因?yàn)榉N種問題,猶豫嘗試液冷方案,導(dǎo)致液冷推廣遇阻。
曙光數(shù)創(chuàng)也呼吁行業(yè)統(tǒng)一標(biāo)準(zhǔn)。張鵬表示,首先如果行業(yè)標(biāo)準(zhǔn)對(duì)于供水的溫度、溫差、壓力等能夠統(tǒng)一,對(duì)液冷成本進(jìn)一步下降是非常有意義的,也是他們?cè)趯?shí)際落地中遇到的問題。
不過,行業(yè)的標(biāo)準(zhǔn)形成并不會(huì)一蹴而就。而徐濤認(rèn)為,各方博弈的滾動(dòng)過程,行業(yè)的發(fā)展難免會(huì)有波折很有可能“進(jìn)三步退一步”。當(dāng)然,這也是新興技術(shù)必然經(jīng)歷的過程。
華為昇騰已經(jīng)宣布將會(huì)發(fā)布業(yè)界首個(gè)萬卡級(jí)的集群,也將配套液冷方案,使用天成平臺(tái)采用的“液冷+電源+網(wǎng)絡(luò)”三條總線的設(shè)計(jì)思路。
企商在線石景山公共算力中心預(yù)計(jì)明年8月就交付,雖然還沒有行業(yè)標(biāo)準(zhǔn)落實(shí),企商在線則選擇部分高功耗算力采用液冷方式一體化建設(shè),然后直接租算力給客戶。
徐濤表示,后續(xù)隨著行業(yè)發(fā)展一定會(huì)有新的方案,考慮到芯片功耗越來越高,風(fēng)冷能力有限,同時(shí)“碳達(dá)峰”“碳中和”的要求,液冷作為確定趨勢,當(dāng)前先做起來比較重要。