數(shù)據(jù)中心“碳中和”不應(yīng)只關(guān)注硬件

數(shù)據(jù)猿DataYuan
數(shù)據(jù)猿DataYuan
目前,無(wú)論是通過(guò)降低散熱能耗還是通過(guò)更先進(jìn)的軟件架構(gòu)節(jié)能減排,我國(guó)數(shù)據(jù)中心還有非常大的優(yōu)化空間。隨著2021年國(guó)家一系列雙碳政策的出臺(tái),我國(guó)正式開(kāi)始像碳中和目標(biāo)大步邁進(jìn),隨著越來(lái)越多像存儲(chǔ)計(jì)算分離技術(shù)的普及,我國(guó)實(shí)現(xiàn)碳中和指日可待。

2021年是碳中和元年,同年10月26日,國(guó)務(wù)院印發(fā)《2030年前碳達(dá)峰行動(dòng)方案》,放眼全球,微軟、AWS、Google等擁有大型數(shù)據(jù)中心的企業(yè)均表示在2030年實(shí)現(xiàn)碳中和。

與此同時(shí),我國(guó)繼“南水北調(diào)”“西電東送”“西氣東輸”等工程之后也發(fā)布了“東數(shù)西算”重要戰(zhàn)略,在這個(gè)基礎(chǔ)上,國(guó)內(nèi)的像聯(lián)想、阿里等不少擁有大規(guī)模數(shù)據(jù)中心的企業(yè)已經(jīng)開(kāi)始進(jìn)行減排探索,根據(jù)公開(kāi)報(bào)道,目前主要的手段是硬件改造,通過(guò)更先進(jìn)的散熱技術(shù)降低數(shù)據(jù)中心能耗,根據(jù)筆者調(diào)研,散熱部分能耗占據(jù)總能耗的40%。

硬件減排的局限性

而類(lèi)似的硬件改造也存在不少局限性。首先是時(shí)間問(wèn)題,無(wú)論是阿里的浸沒(méi)式液冷方案還是聯(lián)想的水冷方案,都需要一個(gè)比較漫長(zhǎng)的改造過(guò)程,并且類(lèi)似的方案不少還在探索階段,并沒(méi)有大規(guī)模鋪設(shè),成本也較高。因?yàn)橛布O(shè)施的改造是一個(gè)系統(tǒng)工程,需要將服務(wù)器從暴露在空氣中到浸沒(méi)在液體里,服務(wù)器和數(shù)據(jù)中心的設(shè)計(jì)都要圍繞冷卻劑的工作特性做出相應(yīng)的調(diào)整,運(yùn)維體系也將隨之改變。

其次是收益有限,因?yàn)殡娏ο牡拇箢^主要是在服務(wù)器耗電上。以目前比較通用的大數(shù)據(jù)架構(gòu)來(lái)看,無(wú)論服務(wù)器是否被閑置,為了保證整體集群的高可用,硬件資源長(zhǎng)期被占用,即便閑置也無(wú)法停機(jī)。而硬件閑置就意味著能源的浪費(fèi)。這一部分能耗遠(yuǎn)超50%。

資源閑置所占能耗超50%

資源調(diào)度一直是業(yè)界公認(rèn)的難題,根據(jù)Gartner調(diào)研發(fā)現(xiàn)全球數(shù)據(jù)中心服務(wù)器CPU利用率只有6%~12%,可見(jiàn)資源浪費(fèi)有多嚴(yán)重。

為了印證這一說(shuō)法,我們找到了阿里公開(kāi)的集群使用率數(shù)據(jù),該數(shù)據(jù)包含4000+臺(tái)機(jī)器的9天運(yùn)行時(shí)數(shù)據(jù),包括4000臺(tái)機(jī)器、9000個(gè)在線任務(wù)和4000000個(gè)離線任務(wù)的靜態(tài)和運(yùn)行時(shí)數(shù)據(jù)。整個(gè)集群的CPU使用情況如以下熱圖所示。橫軸代表8天的時(shí)間,縱軸代表了4000臺(tái)機(jī)器,圖中每條水平的直線都代表這一臺(tái)機(jī)器在這8天中每15分鐘的平均資源利用率,其中顏色越紅代表資源使用率越高。

通過(guò)上圖我們可以發(fā)現(xiàn),在7天實(shí)踐中,服務(wù)器CPU有大量時(shí)間在藍(lán)色和綠色之間,也就意味著多數(shù)時(shí)間CPU利用率是低于40%的,同時(shí)還發(fā)現(xiàn)CPU利用率在時(shí)間維度和集群維度上能看到很強(qiáng)的周期性變化,每天早上6點(diǎn)左右集群CPU利用率到達(dá)了峰值(早上運(yùn)行的有消耗大量資源的定時(shí)任務(wù))。

這還是在技術(shù)較為先進(jìn)的阿里集群中的數(shù)據(jù),我們不難推測(cè)出在其他數(shù)據(jù)中心資源利用率低的情況將更為嚴(yán)重,放到全球的平均水平,Gartner全球數(shù)據(jù)中心服務(wù)器CPU利用率只有6%~12%的調(diào)研結(jié)果是有相當(dāng)高可信度的。

數(shù)倉(cāng)領(lǐng)域資源閑置率更高

而數(shù)據(jù)中心由于大量服務(wù)器資源為在線應(yīng)用工作,如果我們將目光聚焦到數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域,就不難發(fā)現(xiàn)除了大量復(fù)雜查詢場(chǎng)景如銀行跑批等,資源的閑置率將更高,周期性將更加明顯。

數(shù)倉(cāng)主要滿足數(shù)據(jù)的存儲(chǔ)和查詢需求,而目前目前數(shù)倉(cāng)領(lǐng)域大規(guī)模分布式存儲(chǔ)廣泛采用的是MPP架構(gòu),由于MPP架構(gòu)的存儲(chǔ)節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)的綁定特性,意味著集群中的節(jié)點(diǎn)既要承擔(dān)存儲(chǔ)任務(wù),又要承擔(dān)計(jì)算任務(wù),所以即便沒(méi)有查詢計(jì)算任務(wù),該節(jié)點(diǎn)也要被占用,這其實(shí)是十分可觀的浪費(fèi),大幅降低集群利用率。

存算分離技術(shù)讓問(wèn)題迎刃而解

我們能否換個(gè)思路,在保持現(xiàn)有數(shù)據(jù)中心硬件不變的情況下通過(guò)提升利用率,也就是減少閑置來(lái)實(shí)現(xiàn)節(jié)能減排呢?

試想一下,如果存儲(chǔ)和計(jì)算節(jié)點(diǎn)分離是什么情況。這就意味著,在保證了整體集群數(shù)據(jù)安全存儲(chǔ)并且可用的狀態(tài)下,如果沒(méi)有查詢?nèi)蝿?wù),系統(tǒng)將大幅減少計(jì)算資源供給,出讓計(jì)算節(jié)點(diǎn)給其他任務(wù)甚至是給其他租戶。這有點(diǎn)類(lèi)似于我們筆記本電腦的硬盤(pán)休眠功能,如果沒(méi)有數(shù)據(jù)的寫(xiě)入和讀取,機(jī)械硬盤(pán)會(huì)進(jìn)入休眠狀態(tài),一方面減少了噪音,另一方面也降低了能耗,在筆記本電池容量保持不變的情況下,大幅增長(zhǎng)續(xù)航時(shí)間。

在云端,存儲(chǔ)計(jì)算分離的優(yōu)勢(shì)將更加明顯。根據(jù)Gartner的研究,目前中國(guó)數(shù)據(jù)上云已經(jīng)超過(guò)50%,并且以110%的增速快速發(fā)展。在云端使用存儲(chǔ)計(jì)算分離技術(shù)除了降低能耗減少碳排放外,對(duì)于用戶來(lái)說(shuō)最直接的收益是成本的大幅降低。用戶可以在查詢需求較低的情況下減少計(jì)算節(jié)點(diǎn),因?yàn)樵谠骗h(huán)境中的費(fèi)用是根據(jù)節(jié)點(diǎn)使用時(shí)長(zhǎng)計(jì)算的,回收限制計(jì)算節(jié)點(diǎn)意味著可以真正做到按需付費(fèi)。

回到文章主題,站在云服務(wù)提供商的角度,采用存儲(chǔ)計(jì)算分離,意味著不同類(lèi)型用戶波峰波谷的中和,在硬件計(jì)算資源不變的情況下可以服務(wù)更多用戶。

目前,無(wú)論是通過(guò)降低散熱能耗還是通過(guò)更先進(jìn)的軟件架構(gòu)節(jié)能減排,我國(guó)數(shù)據(jù)中心還有非常大的優(yōu)化空間。隨著2021年國(guó)家一系列雙碳政策的出臺(tái),我國(guó)正式開(kāi)始像碳中和目標(biāo)大步邁進(jìn),隨著越來(lái)越多像存儲(chǔ)計(jì)算分離技術(shù)的普及,我國(guó)實(shí)現(xiàn)碳中和指日可待。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論