地主家“算力”也不夠了,怎么才能“可持續(xù)”

當(dāng)前,芯片功耗與服務(wù)器功耗逐步上升,特別是人工智能需求的通用GPU功耗急劇增加,使得單機(jī)柜功率密度正不斷增大。根據(jù)《2021-2022年度中國(guó)數(shù)據(jù)中心基礎(chǔ)設(shè)施產(chǎn)品市場(chǎng)總報(bào)告》,2021年我國(guó)單機(jī)柜功率在10kW以上的數(shù)據(jù)中心市場(chǎng)規(guī)模增速超過(guò)10%,其中30kW以上增速達(dá)31%。

本文來(lái)自微信公眾號(hào)“與非網(wǎng)eefocus”,作者/張慧娟。

政策與技術(shù)的雙重驅(qū)動(dòng)下,高效低碳的液冷技術(shù)不僅是散熱方式的改變,更有可能變革整個(gè)數(shù)據(jù)中心生態(tài)。

近日,ChatGPT官網(wǎng)一度停止Plus付費(fèi)項(xiàng)目的購(gòu)買(mǎi),原因是“需求量過(guò)大”。業(yè)內(nèi)推測(cè)這是由于ChatGPT背后的算力資源出現(xiàn)明顯缺口,導(dǎo)致OpenAI不得不暫時(shí)踩下用戶增長(zhǎng)的“剎車(chē)”。盡管截止本文發(fā)稿時(shí)這一服務(wù)項(xiàng)目已恢復(fù),但算力告急確是現(xiàn)實(shí)情況。

算力催生數(shù)據(jù)中心規(guī)模擴(kuò)張

高效變革在即

360截圖16251112669372.png

圖源|reviewguruu.com

類(lèi)ChatGPT大模型迅速引爆各類(lèi)AI應(yīng)用需求的同時(shí),也對(duì)算力提出巨大需求,同時(shí)帶來(lái)了嚴(yán)峻的能源問(wèn)題,如何實(shí)現(xiàn)可持續(xù)的算力增長(zhǎng)成為未來(lái)發(fā)展的關(guān)鍵。

以ChatGPT為例,業(yè)內(nèi)對(duì)其電量需求進(jìn)行過(guò)相關(guān)測(cè)算。根據(jù)OpenAI公開(kāi)信息披露,ChatGPT訓(xùn)練階段總算力消耗約為3640PF-days(即以1PetaFLOP/s的效率運(yùn)行3640天),對(duì)應(yīng)數(shù)據(jù)中心裝機(jī)功率需求2.68萬(wàn)千瓦。據(jù)Similarweb數(shù)據(jù),截至今年1月,ChatGPT日活約1300萬(wàn)人,每人平均1000字左右的問(wèn)題,對(duì)應(yīng)運(yùn)行階段每日算力消耗約為3000PF-days,對(duì)應(yīng)數(shù)據(jù)中心裝機(jī)功率需求66.3萬(wàn)千瓦,對(duì)應(yīng)全年用電量需求約22億千瓦時(shí)。

隨著模型迭代、參數(shù)量的擴(kuò)大,以及日活人數(shù)的擴(kuò)大,相關(guān)算力需求將成倍增加,也將進(jìn)一步推升數(shù)據(jù)中心的規(guī)模擴(kuò)張趨勢(shì)。

從我國(guó)數(shù)據(jù)中心的發(fā)展和建設(shè)方向來(lái)看,工業(yè)和信息化部、發(fā)展改革委等七部門(mén)聯(lián)合發(fā)布《信息通信行業(yè)綠色低碳發(fā)展行動(dòng)計(jì)劃(2022-2025年)》(以下簡(jiǎn)稱《行動(dòng)計(jì)劃》),2025年,全國(guó)新建大型、超大型數(shù)據(jù)中心電能利用效率(PUE)降到1.3以下,改建核心機(jī)房PUE降到1.5以下。

另外,根據(jù)“東數(shù)西算”工程要求,內(nèi)蒙古、貴州、甘肅、寧夏四處集群樞紐設(shè)立的數(shù)據(jù)中心集群PUE應(yīng)控制在1.2以內(nèi);京津冀、長(zhǎng)三角、粵港澳大灣區(qū)、成渝四處集群樞紐設(shè)立的數(shù)據(jù)中心集群PUE則要控制在1.25以下。

除了政策層面的嚴(yán)苛要求,技術(shù)層面的變革也迫在眉睫:

當(dāng)前,芯片功耗與服務(wù)器功耗逐步上升,特別是人工智能需求的通用GPU功耗急劇增加,使得單機(jī)柜功率密度正不斷增大。根據(jù)《2021-2022年度中國(guó)數(shù)據(jù)中心基礎(chǔ)設(shè)施產(chǎn)品市場(chǎng)總報(bào)告》,2021年我國(guó)單機(jī)柜功率在10kW以上的數(shù)據(jù)中心市場(chǎng)規(guī)模增速超過(guò)10%,其中30kW以上增速達(dá)31%。

如果采用風(fēng)冷散熱方式,通常要把單機(jī)柜功率控制在12kW以內(nèi),以確保散熱系統(tǒng)能夠?yàn)镮T設(shè)備提供合適的工作溫度。但是,隨著服務(wù)器單位功耗不斷增大,單機(jī)柜功率15kW基本成為空氣對(duì)流散熱能力的天花板,一旦超越這一數(shù)值,處于高溫狀態(tài)工作的IT設(shè)備將出現(xiàn)運(yùn)行不穩(wěn)、加劇老化甚至頻繁宕機(jī)等后果。

在政策與技術(shù)的雙重驅(qū)動(dòng)下,高效低碳的液冷技術(shù)不僅是散熱方式的改變,更有可能變革整個(gè)數(shù)據(jù)中心生態(tài)。

AI服務(wù)器液冷滲透率

將更快、更高

什么是PUE?PUE(Power Usage Effectiveness)是用于測(cè)量數(shù)據(jù)中心能源效率的指標(biāo),是用數(shù)據(jù)中心總能耗除以IT設(shè)備能耗得來(lái)??偰芎陌琁T設(shè)備能耗和制冷、配電等系統(tǒng)能耗,PUE數(shù)值越靠近1說(shuō)明非IT設(shè)備的能耗越少,能效水平越高。

360截圖16251112669372.png

圖源|dailyhostnews.com

當(dāng)前,在PUE目標(biāo)不斷降低,且CPU功耗逐年上升的背景下,業(yè)內(nèi)正在大力推行采用液冷方案來(lái)降低服務(wù)器整機(jī)功耗和數(shù)據(jù)中心PUE。

所謂液冷,通俗來(lái)講就是通過(guò)液體代替空氣,把CPU、內(nèi)存等IT發(fā)熱器件產(chǎn)生的熱量帶走,就好似給服務(wù)器局部冷卻、整體“淋浴”甚至全部浸沒(méi)。就液冷技術(shù)分類(lèi)而言,根據(jù)液體冷媒和發(fā)熱源的接觸方式可分為——冷板式(間接接觸)、噴淋式(直接接觸)、浸沒(méi)式(直接接觸)。相較于風(fēng)冷,液冷的優(yōu)勢(shì)主要體現(xiàn)在以下方面:

可以帶走更多熱量。

相較于空氣,水的比熱容高達(dá)4.2x10的三次方焦/千克·攝氏度,導(dǎo)熱效率十分高,因此無(wú)論是冷板式還是浸沒(méi)式的液冷,都能帶走更多的熱量。

噪音品質(zhì)更好。

作為生產(chǎn)噪音的“專業(yè)戶”,數(shù)據(jù)中心機(jī)房的噪音往往成為擾民的存在,在同等條件下,液冷的噪音要比風(fēng)冷小很多。

耗電節(jié)能更省。

冷卻效率提高的同時(shí),整體循環(huán)效率也在變高,這樣產(chǎn)品級(jí)的電消耗,實(shí)際上節(jié)約了整個(gè)空調(diào)系統(tǒng)和循環(huán)系統(tǒng)的電耗。

物理占用空間小。

受限于風(fēng)冷散熱系統(tǒng)的限制,迎風(fēng)面積總是有限的,如果想要實(shí)現(xiàn)更高的密度,就需要在單位體積內(nèi)實(shí)現(xiàn)更高的冷卻容量,這也是液冷才可以實(shí)現(xiàn)的。

寧暢首席技術(shù)官趙雷認(rèn)為,風(fēng)冷技術(shù)的極限值基本是在300W-350W之間,目前數(shù)據(jù)中心已經(jīng)慢慢觸碰到這個(gè)極限值,而隨著CPU功耗的增長(zhǎng),推進(jìn)液冷技術(shù)發(fā)展已經(jīng)成為行業(yè)發(fā)展的重要推動(dòng)力。

新華三服務(wù)器產(chǎn)品線系統(tǒng)部總監(jiān)鄭國(guó)良表示,“東數(shù)西算”項(xiàng)目正式落地后,對(duì)數(shù)據(jù)中心PUE的要求非常明確,數(shù)據(jù)中心對(duì)于液冷技術(shù)需求的迫切性都提到比較高的位置。因此對(duì)于當(dāng)前和下一代平臺(tái),包括浸沒(méi)式液冷都會(huì)加大投入和加快發(fā)布的進(jìn)度。

針對(duì)當(dāng)前火爆的AI服務(wù)器市場(chǎng),浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥表示,“短期內(nèi),AIGC對(duì)數(shù)據(jù)中心訓(xùn)練需求是爆炸式的增長(zhǎng)。長(zhǎng)遠(yuǎn)來(lái)看,推理市場(chǎng)也會(huì)是爆炸性的增長(zhǎng)”。

相比于通用服務(wù)器,AI服務(wù)器功耗更高,單臺(tái)服務(wù)器約10千瓦。“現(xiàn)在10千瓦的服務(wù)器是6U高,單U要解決1.5千瓦到2千瓦的散熱量,如果單純用風(fēng)冷技術(shù),需要把服務(wù)器做成10U高,幾乎不可能實(shí)現(xiàn)”,趙帥認(rèn)為,“液冷技術(shù)在AI服務(wù)器的滲透率會(huì)更快、更高。”

液冷大規(guī)模部署面臨重重挑戰(zhàn)

360截圖16251112669372.png

圖源|colocationamerica.com

盡管推動(dòng)數(shù)據(jù)中心向液冷發(fā)展已經(jīng)成為行業(yè)共識(shí),但是,液冷技術(shù)從小規(guī)模驗(yàn)證走向大規(guī)模量產(chǎn)仍面臨挑戰(zhàn):一是缺乏技術(shù)行業(yè)標(biāo)準(zhǔn)、規(guī)范等指引,產(chǎn)業(yè)協(xié)同度不高,難以標(biāo)準(zhǔn)化適配和部署;二是由于缺乏長(zhǎng)周期、大規(guī)模部署驗(yàn)證,液冷數(shù)據(jù)中心的可靠性問(wèn)題存在一定爭(zhēng)議,用戶有使用疑慮;三是產(chǎn)業(yè)鏈協(xié)同性差,缺乏具備高度整合能力的企業(yè),資源配置效率低、浪費(fèi)大,產(chǎn)業(yè)發(fā)展速度受阻。

針對(duì)上述挑戰(zhàn),業(yè)界頭部企業(yè)已經(jīng)開(kāi)始了技術(shù)創(chuàng)新,并通過(guò)產(chǎn)業(yè)合作推動(dòng)相關(guān)產(chǎn)品標(biāo)準(zhǔn)、驗(yàn)證標(biāo)準(zhǔn)的建立。

例如針對(duì)漏液等安全方面的顧慮,浪潮信息首創(chuàng)了液環(huán)式真空CDU,可實(shí)現(xiàn)僅依靠真空泵通過(guò)不同傳感器控制幾個(gè)腔室的功能切換即可實(shí)現(xiàn)流體的循環(huán)流動(dòng),水泵則僅起到輔助提高系統(tǒng)壓差作用。這項(xiàng)技術(shù)創(chuàng)新,突破了業(yè)界目前負(fù)壓液冷循環(huán)系統(tǒng)必須同時(shí)依靠真空泵和水泵,才能實(shí)現(xiàn)液體循環(huán)流動(dòng)的“定律”,在降低技術(shù)成本的同時(shí),也實(shí)現(xiàn)了技術(shù)極簡(jiǎn)化,進(jìn)一步推動(dòng)冷板式液冷技術(shù)的普及。

針對(duì)用戶對(duì)液冷產(chǎn)品規(guī)?;渴鸬囊蓱],浪潮信息與京東云聯(lián)合發(fā)布了天樞(ORS3000S)液冷整機(jī)柜服務(wù)器,它支持冷板式液冷,散熱效率提升50%;滿足多節(jié)點(diǎn)供電需求的同時(shí),通過(guò)電源均衡優(yōu)化技術(shù),可以使電源一直工作在最高效率,相比于分布式電源模式,整體效率提升10%;支持一體化交付,高效運(yùn)維部署,交付速度提高5-10倍。

阿里云約從2016年開(kāi)始大規(guī)模部署液冷技術(shù)。英特爾與阿里巴巴圍繞浸入式液冷所面臨的材料兼容性、電氣信號(hào)完整性、芯片散熱特性、服務(wù)器系統(tǒng)散熱特性、服務(wù)器及機(jī)柜結(jié)構(gòu)設(shè)計(jì)等課題,展開(kāi)了深入合作,從處理器定制和服務(wù)器系統(tǒng)開(kāi)發(fā)與優(yōu)化著手,突破芯片功耗墻功耗和冷卻兩大影響算力提升的關(guān)鍵問(wèn)題,使得液冷服務(wù)器在阿里巴巴數(shù)據(jù)中心成功大規(guī)模部署,在2018年建成首個(gè)互聯(lián)網(wǎng)液冷數(shù)據(jù)中心,在2020年投產(chǎn)首個(gè)5A級(jí)綠色液冷數(shù)據(jù)中心,每年可以節(jié)省電能至少達(dá)千萬(wàn)級(jí)的同時(shí),使得服務(wù)器系統(tǒng)的故障率相比風(fēng)冷服務(wù)器下降約53%,有效降低了數(shù)據(jù)中心總體擁有成本。

寧暢也在與英特爾的合作中,進(jìn)一步改善了冷板式液冷設(shè)計(jì)中的漏液檢測(cè)、材料兼容性、生產(chǎn)工藝等核心技術(shù)要點(diǎn),并在浸沒(méi)式液冷中的安裝運(yùn)維、液體揮發(fā)與滲漏、材料兼容性等難點(diǎn)問(wèn)題上實(shí)現(xiàn)了突破。

不過(guò),在數(shù)據(jù)中心服務(wù)器實(shí)施液冷技術(shù)畢竟是系統(tǒng)級(jí)工程,需要由點(diǎn)到面、循序漸進(jìn)地推進(jìn)。就拿高速I(mǎi)/O連接器為例,當(dāng)整個(gè)傳輸鏈路置于液冷材料環(huán)境時(shí),由于其周?chē)殡姵?shù)的變化,傳輸鏈路對(duì)應(yīng)的高頻參數(shù),譬如阻抗、插損等會(huì)受到影響并在一定程度上變差,因此還需要專門(mén)在冷卻液環(huán)境中進(jìn)行信號(hào)完整性測(cè)試,便于校準(zhǔn)由于環(huán)境引入的偏差,使系統(tǒng)信號(hào)裕量符合預(yù)期。

2025年,液冷滲透率有望超過(guò)20%

國(guó)內(nèi)液冷產(chǎn)業(yè)總體發(fā)展現(xiàn)狀如何?趙帥表示,液冷技術(shù)本身,及其加工、焊接、產(chǎn)品工藝等已比較成熟?,F(xiàn)在迫在眉睫的是打通產(chǎn)業(yè)鏈的工作,形成可批量化、可復(fù)制化、可規(guī)?;男?yīng)。

浪潮信息數(shù)據(jù)中心產(chǎn)品部副總經(jīng)理李金波表示,推進(jìn)液冷產(chǎn)業(yè)化的關(guān)鍵是建立標(biāo)準(zhǔn),對(duì)于液冷部件來(lái)說(shuō),主要是兩類(lèi):一類(lèi)是設(shè)計(jì)標(biāo)準(zhǔn),要讓所有研究團(tuán)隊(duì)通過(guò)公認(rèn)的標(biāo)準(zhǔn),慢慢形成標(biāo)準(zhǔn)的技術(shù)體系;一類(lèi)是測(cè)試標(biāo)準(zhǔn),要把原來(lái)的設(shè)計(jì)準(zhǔn)則在測(cè)試環(huán)節(jié)中一一地實(shí)現(xiàn)、被行業(yè)所認(rèn)可,這時(shí)整體的標(biāo)準(zhǔn)、規(guī)范才能打通。

“中國(guó)的液冷發(fā)展會(huì)是逐步迭代的過(guò)程,到2022、2023年液冷滲透率可能只在5%左右,但是到2025年,我們認(rèn)為會(huì)超過(guò)20%”,趙帥表示。

總體而言,我國(guó)液冷當(dāng)前的滲透率還較低。從整體現(xiàn)狀來(lái)看,主要是一些創(chuàng)新型的數(shù)據(jù)中心在積極應(yīng)用,東部地區(qū)數(shù)據(jù)中心整體PUE要求較高,液冷使用相對(duì)多。此外,不同行業(yè)客戶對(duì)于液冷產(chǎn)品與方案具有多樣化需求。

“在國(guó)內(nèi)當(dāng)前的應(yīng)用環(huán)境下,沒(méi)有最好的液冷,只有最適合用的液冷,這是我們的一個(gè)核心理念”,趙帥談到。

寫(xiě)在最后

如何高效建設(shè)液冷數(shù)據(jù)中心?這是全產(chǎn)業(yè)都在探究的方向。當(dāng)前不僅需要將各類(lèi)服務(wù)器全面適配液冷方案,更需要在打通算力層面的基礎(chǔ)上,提升液冷的產(chǎn)業(yè)化能力。畢竟液冷仍處于商業(yè)化的初級(jí)階段,產(chǎn)業(yè)提速的核心在于標(biāo)準(zhǔn)化建設(shè)、產(chǎn)業(yè)鏈整合,從產(chǎn)品技術(shù)、生產(chǎn)組織、品質(zhì)標(biāo)準(zhǔn)等產(chǎn)業(yè)要素入手,才能讓液冷技術(shù)走向更多數(shù)據(jù)中心。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論