算力風暴背后:液冷數(shù)據(jù)中心破局“不可能三角”

郝俊慧
隨著著人工智能、大數(shù)據(jù)分析、虛擬化和高端計算等技術(shù)的迅速發(fā)展,算力中心對計算能力的要求越來越高。截至2024年6月,英特爾第六代服務(wù)器處理器單CPU功耗已突破300W,英偉達最新的超級芯片GB200功耗達2700W,MGX集群算力密度達100kW/柜。

本文來自微信公眾號“IT時報”,作者/郝俊慧。

AI風暴席卷全球時,“能源陰影”始終如影隨形。

“真正的電力短缺局面即將到來。”半導(dǎo)體分析機構(gòu)SemiAnalysis在一份報告中指出,全球數(shù)據(jù)中心關(guān)鍵IT電力需求將在2026年激增至96吉瓦(1吉瓦=100萬kW),其中人工智能將消耗約40吉瓦。

這樣的增速對于全球而言均是巨大挑戰(zhàn)。數(shù)據(jù)顯示,全球數(shù)字技術(shù)耗電量從2018年占比不到2%提升至2023年的10%,預(yù)計到2030年占比將達到20%。

比特和瓦特能否和諧共存,是影響算力能否高速狂奔的關(guān)鍵因素,液冷技術(shù)的出現(xiàn),帶來了解開難題的“鑰匙”。但與此同時,液冷數(shù)據(jù)中心建設(shè)者和運營者必須先解決高算力、低PUE和低TCO的“不可能三角”關(guān)系。

“我們做過內(nèi)部測算,當單個機架功率密度超過10kW之后,采用冷板液冷架構(gòu)的單kW制冷成本將低于傳統(tǒng)的風冷架構(gòu)。”近日,第五屆中國數(shù)據(jù)中心綠色能源大會暨第十屆中國(上海)國際數(shù)據(jù)中心產(chǎn)業(yè)展覽會舉辦期間,在接受包括《IT時報》在內(nèi)的媒體采訪時,曙光數(shù)創(chuàng)副總裁兼CTO張鵬預(yù)測,隨著算力需求的增加,機架功率密度將快速上升,新建機架功率20kW起步,并向60kW普及,因此,未來十年是冷板液冷技術(shù)的高速發(fā)展期,液冷數(shù)據(jù)中心占比將超過六成。

“不過,再過十年將是浸沒式液冷技術(shù)的天下”,張鵬話鋒一轉(zhuǎn)說道。在當日展臺上,曙光數(shù)創(chuàng)擺放著一臺浸沒在液體中的服務(wù)器,這臺“缸式”浸沒液冷計算機,不僅可以讓PUE降至1.05,而且最高可支持的單機架功率可達210kW,“這只是一代產(chǎn)品,剛剛商用的二代產(chǎn)品最高可支持功率已達575kW,而正在研制的三代產(chǎn)品將高于750kW,它的單kW制冷成本遠遠低于風冷和冷板液冷技術(shù)。”

電影《流浪地球2》中,為了讓地球啟動“流浪模式”,人類必須重啟杜勒斯、東京、北京三地根服務(wù)器,其中位于北京的“未來航天中心計算機”便是一座“浸沒”式的水下數(shù)據(jù)中心,其原型正是曙光數(shù)創(chuàng)的相變浸沒液冷計算機。

如今,科幻仍是想象,科技已先至。

640 (1).png

液冷不再是選擇題

對于數(shù)據(jù)中心而言,液冷架構(gòu)已不再是選擇題。

隨著著人工智能、大數(shù)據(jù)分析、虛擬化和高端計算等技術(shù)的迅速發(fā)展,算力中心對計算能力的要求越來越高。截至2024年6月,英特爾第六代服務(wù)器處理器單CPU功耗已突破300W,英偉達最新的超級芯片GB200功耗達2700W,MGX集群算力密度達100kW/柜。

中國信通院發(fā)布的《算力中心冷板式液冷發(fā)展研究報告(2024年)》顯示,高功耗、高密度的大型、超大型算力中心是未來建設(shè)的重點。如今,大型算力中心的單機架功率密度已接近8kW,少數(shù)超大型算力中心的單機架功率密度已達20kW。

然而,算力中心有限的電力承載能力成為限制算力提升的主要因素。張鵬告訴《IT時報》記者,北京某個智算中心采用了傳統(tǒng)的風冷架構(gòu),但GPU服務(wù)器的單機架功率密度達60kW以上,這幾乎已是風冷的上限,當大模型并行訓(xùn)練時,常常因任務(wù)太多、散熱能力不足而產(chǎn)生局部熱點,甚至宕機,因此只能將GPU降頻使用,導(dǎo)致可使用算力大幅下降。

液冷是將液體作為服務(wù)器的散熱方式,它的應(yīng)用可以使算力中心計算能力得到飛躍提升。目前主流液冷架構(gòu)有兩種:冷板和浸沒式。

冷板路線是在服務(wù)器背后直接加裝液冷板,將數(shù)據(jù)中心IT設(shè)備的熱量傳導(dǎo)到冷板上,然后通過冷板內(nèi)部液體循環(huán)實現(xiàn)換熱,再通過室外冷卻塔等設(shè)備實現(xiàn)散熱。

浸沒式則是直接將服務(wù)器電子元器件浸入特制具備高熱傳導(dǎo)性的冷媒中,冷媒沸點低,可以快速將服務(wù)器產(chǎn)生的熱量傳導(dǎo)出去,從而產(chǎn)生更高效的散熱效果。

目前冷板式液冷是最主流的液冷方案,IDC近日發(fā)布報告稱,2023全年中國液冷服務(wù)器市場規(guī)模達到15.5億美元,其中95%以上均采用冷板式液冷解決方案。

《算力中心冷板式液冷發(fā)展研究報告(2024年)》透露,某算力中心引入了冷板式液冷系統(tǒng)后,將其應(yīng)用于高密度計算節(jié)點。在傳統(tǒng)空氣冷卻技術(shù)下,每個機柜的功率密度僅為8-10kW,而在采用冷板式液冷技術(shù)后,單機柜的功率密度大幅提升至33kW,可支持128顆CPU,單機柜最大支持66kW供電。

“從2011年啟動液冷相關(guān)技術(shù)的研究,曙光的產(chǎn)品已連續(xù)三年在液冷領(lǐng)域保持市占率第一,”張鵬透露,國內(nèi)不少互聯(lián)網(wǎng)大廠均是曙光液冷方案的“買單人”,“某互聯(lián)網(wǎng)大廠去年大量采購了我們的產(chǎn)品。”

640 (1).png

圖源:曙光數(shù)創(chuàng)

中國電子技術(shù)標準化研究院發(fā)布的《液冷數(shù)據(jù)中心白皮書》顯示,2023年曙光數(shù)創(chuàng)在液冷基礎(chǔ)設(shè)施市場的份額高達61.3%,連續(xù)3年蟬聯(lián)行業(yè)榜首。

冷板式液冷將統(tǒng)治未來十年

相較于風冷系統(tǒng),液冷技術(shù)從根本上改善了主設(shè)備的散熱形式,更能滿足高密機柜、芯片級精確制冷,具有更節(jié)能、噪聲低等優(yōu)點。

張鵬告訴記者,目前曙光數(shù)創(chuàng)冷板式液冷數(shù)據(jù)中心的PUE已經(jīng)可以做到1.2以內(nèi),而相變浸沒式數(shù)據(jù)中心能做到1.04,幾乎接近于1。

PUE是數(shù)據(jù)中心消耗的所有能源與IT負載消耗的能源比值,如果比值為1,意味著數(shù)據(jù)中心所有能源都將為算力服務(wù)。去年6月開始實行的《綠色數(shù)據(jù)中心政府采購需求標準》明確要求,數(shù)據(jù)中心PUE不高于1.4,2025年起數(shù)據(jù)中心PUE不高于1.3。

三家電信運營商2023年聯(lián)合發(fā)布的《電信運營商液冷技術(shù)白皮書》也顯示,2024年新建數(shù)據(jù)中心項目10%規(guī)模試點應(yīng)用液冷技術(shù),推進產(chǎn)業(yè)生態(tài)成熟;2025年及以后開展規(guī)模應(yīng)用,50%以上數(shù)據(jù)中心項目應(yīng)用液冷技術(shù)。

液冷數(shù)據(jù)中心逐漸普及的一個重要原因是,冷板式液冷技術(shù)的成本不斷下降。相關(guān)數(shù)據(jù)顯示,2022年液冷數(shù)據(jù)中心1kW的散熱成本近6500元,相比2022年下降54.2%,預(yù)計2023年1kW的散熱成本降至5000元,與傳統(tǒng)風冷的建設(shè)成本基本持平。

曙光數(shù)創(chuàng)也曾進行過市場摸底,2022年液冷服務(wù)器的滲透率約3%~5%,2023年上升至8%~10%,2024年之后有可能拉出一條上升直線,增長率可達30%~40%。其中大部分是冷板式液冷服務(wù)器。張鵬認為,10年內(nèi)冷板式技術(shù)架構(gòu)將成為智算中心的必選題,滲透率將有望最終定格為六成。

這個估算基本與中國算力格局相匹配。根據(jù)《2023~2024年中國人工智能計算力發(fā)展評估報告》,中國智能算力規(guī)模正處于高速增長狀態(tài)。預(yù)計到2027年,中國智能算力規(guī)模將達1117.4EFLOPS,2022~2027年期間的年復(fù)合增長率為33.9%。

浸沒式技術(shù)路線也逐漸獲得市場認可,不過與其他發(fā)力單相浸沒式液冷技術(shù)路線的友商不同,曙光數(shù)創(chuàng)從一開始便選了一條更難的路徑——相變浸沒式液冷技術(shù)。

相變浸沒式液冷

為未來做好準備

翻閱各類液冷式數(shù)據(jù)中心報告,談及冷板式和單相浸沒式技術(shù)路線時,總有多個廠商的方案可供參考,但在談及國產(chǎn)相變浸沒式液冷技術(shù)時,廠商的名字只剩下一個——曙光。

所謂相變,即物質(zhì)態(tài)勢發(fā)生改變,浸沒式的含氟冷卻液在受熱時發(fā)生相變成為氣態(tài),利用液體汽化的潛熱吸收并帶走服務(wù)器內(nèi)發(fā)熱元件產(chǎn)生的熱量,從而大幅提升整個數(shù)據(jù)中心系統(tǒng)的換熱效率,并在冷凝后相變?yōu)橐后w,再度循環(huán)進入液體箱,進而提高整個數(shù)據(jù)中心系統(tǒng)的換熱效率。由此芯片核心溫度降低20℃到30℃,芯片性能約可提升10%至30%,而單位算力的投資成本亦可降低,據(jù)測算,冷板液冷初投資可低于風冷,浸沒相變液冷5年TCO即可低于風冷。

640 (1).png

圖源:壹圖網(wǎng)

“每年的液體損耗在3%左右。”曙光展臺工作人員告訴記者,曙光數(shù)創(chuàng)浸沒相變液冷技術(shù)中不需要部署傳統(tǒng)風冷設(shè)施,真正做到極致節(jié)能、全時全域自然冷卻,節(jié)約能效大于30%。

據(jù)了解,目前相變浸沒式液冷技術(shù)可實現(xiàn)功率密度高達250kW至500kW/浸沒腔,曙光正在研制的三代產(chǎn)品預(yù)期功率密度超過750kW,而“液體進、液體出”的單相浸沒式液冷技術(shù),目前普遍支持的最高單機架功率在100kW左右。

《IT時報》記者在現(xiàn)場看到曙光一代相變浸沒式液冷服務(wù)器機架模型,可支持八臺智算服務(wù)器,其中每臺智算服務(wù)器裝有兩塊CPU和八塊GPU,功率密度超過210kW,而這已經(jīng)是曙光數(shù)創(chuàng)數(shù)年前的產(chǎn)品,新商用的二代產(chǎn)品功率密度已超過500kW。

從目前智算中心的建設(shè)需求來看,單機架密度超過500kW是比較高的門檻,即便210kW也已是民用數(shù)據(jù)中心的天花板。超算中心目前是相變浸沒式液冷技術(shù)方案的主要場景。不過,隨著GPU的迭代升級,來自智算中心的功率密度要求正在加速上升。英偉達最新推出的MGX超級AI工廠,可支持72塊CPU,單臺功率密度達100kW。

在更高密度、更大規(guī)模的計算系統(tǒng)到來之前,相變浸沒式液冷技術(shù)方案做好了準備。

目前,國內(nèi)只有曙光數(shù)創(chuàng)推出了相變浸沒式液冷數(shù)據(jù)中心,在一些關(guān)鍵技術(shù)上實現(xiàn)了國產(chǎn)突破。

據(jù)張鵬介紹,由于冷媒的介電常數(shù)與空氣不同,信號在浸沒環(huán)境中傳輸路徑的分布電容增加,導(dǎo)致高頻信號衰減。這給主板設(shè)計和信號完整性(SI:Signal Integrity)帶來了巨大挑戰(zhàn)。主板上的CPU、GPU、內(nèi)存、PCIe、高速網(wǎng)絡(luò)的信號速率均高于1Gbps,此類信號在全浸環(huán)境下會出現(xiàn)明顯的失真,嚴重影響信號可靠傳輸。曙光數(shù)創(chuàng)通過研究浸沒環(huán)境下的高速信號衰減規(guī)律,針對關(guān)鍵高速信號傳輸進行了優(yōu)化,形成了一整套針對浸沒環(huán)境的高速信號設(shè)計規(guī)范,包含主板Layout規(guī)則、板卡材料要求、測試方法等多方面內(nèi)容。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論