數(shù)據(jù)中心數(shù)字孿生技術(shù)應(yīng)用探討

2020年初突如其來的新冠肺炎疫情使人們的生活、學(xué)習(xí)和工作越來越依賴網(wǎng)絡(luò),如網(wǎng)上購物、網(wǎng)上買菜、網(wǎng)絡(luò)教學(xué)和居家辦公,數(shù)字經(jīng)濟基石的數(shù)據(jù)中心作為新基礎(chǔ)設(shè)施而得到重視。

導(dǎo) 讀

本文介紹了數(shù)字孿生的概念及其在數(shù)據(jù)中心行業(yè)的應(yīng)用,論述了數(shù)字孿生在數(shù)據(jù)中心設(shè)計和運維階段的應(yīng)用情況,分析了數(shù)字孿生在數(shù)據(jù)中心節(jié)能中與AI算法的結(jié)合達到節(jié)能目的的案例。并對數(shù)字孿生技術(shù)在數(shù)據(jù)中心行業(yè)未來的發(fā)展方向進行了探討。

前言

2020年初突如其來的新冠肺炎疫情使人們的生活、學(xué)習(xí)和工作越來越依賴網(wǎng)絡(luò),如網(wǎng)上購物、網(wǎng)上買菜、網(wǎng)絡(luò)教學(xué)和居家辦公,數(shù)字經(jīng)濟基石的數(shù)據(jù)中心作為新基礎(chǔ)設(shè)施而得到重視。

由于人員不能正常到崗,數(shù)據(jù)中心的運維安全正面臨著風(fēng)險,因此越來越多的數(shù)據(jù)中心業(yè)主開始著手向數(shù)字化、智能化運維發(fā)展,以降低人員對數(shù)據(jù)中心運維風(fēng)險的影響。德勤管理咨詢公司(Deloitte Insight)發(fā)布的《2020技術(shù)趨勢報告》中提到了的數(shù)字孿生(Digital Twin)技術(shù),被譽為2020年的技術(shù)趨勢,意味著這項技術(shù)在2020年將有新的發(fā)展或應(yīng)用。

數(shù)據(jù)中心設(shè)計階段的數(shù)字孿生

數(shù)據(jù)中心設(shè)計階段的數(shù)字孿生技術(shù)主要表現(xiàn)為3D建模和仿真,通過CAD軟件、BIM軟件、CFD軟件等工具實現(xiàn)設(shè)計階段的數(shù)字孿生模型。這個階段采用數(shù)字孿生技術(shù)能夠在虛擬環(huán)境中驗證不同場景下設(shè)計方案的適應(yīng)性、合理性,能夠提高設(shè)計效率,優(yōu)化設(shè)計方案。設(shè)計階段采用數(shù)字孿生模型付出的成本和代價最低,而獲益最大。

目前設(shè)計階段的數(shù)字孿生技術(shù)及應(yīng)用已相當成熟及廣泛。圖1以示例說明,設(shè)計階段通常會以CAD或BIM模型來查看不同的布局方案,評估模型是否有干涉等,以CFD模型分析不同方案之間氣流組織分布以及機柜溫度分布情況如圖2,從而為選擇最佳設(shè)計方案提供依據(jù)。這也是數(shù)字孿生技術(shù)的核心。設(shè)計階段的數(shù)字孿生模型就像是孕育的胎兒,這個階段的模型與下一階段建設(shè)和運維是密不可分的。

通常設(shè)計階段除了分析布局以外,也嘗試一些空調(diào)或電力失效方案,以保障整個系統(tǒng)在設(shè)計上沒有缺陷,并為可能發(fā)生的場景進行了提前布局。值得一提的是,設(shè)計階段的數(shù)字孿生模型如果能夠交付給運維階段的人員延續(xù)使用,這將大大提高模型的使用效率,并使其生命周期的孿生更加完整。

數(shù)據(jù)中心運維階段的數(shù)字孿生

數(shù)據(jù)中心運維階段相當于從嬰兒呱呱墜地至其終老,以數(shù)字孿生技術(shù)可以實時觀察其變化,預(yù)測其發(fā)展,從而為其健康運營保駕護航。運維階段與IT部署的變化、環(huán)境的變化、設(shè)備的老化等諸多因素有關(guān),其健康安全運營并不是一件易事。

數(shù)據(jù)中心行業(yè)本身也是處于快速發(fā)展的階段,這意味著有很多先進但未必成熟的新興技術(shù)或得以應(yīng)用,因此新技術(shù)本身的驗證對于數(shù)字孿生來講也是機遇和挑戰(zhàn)。

該階段數(shù)字孿生技術(shù)不僅僅用到了3D仿真技術(shù),還要涉及物聯(lián)網(wǎng)(IoT)技術(shù)、人工智能(AI)技術(shù)和數(shù)據(jù)分析技術(shù)。不同技術(shù)的應(yīng)用程度將產(chǎn)生不同的價值,以下將從IT變更應(yīng)用、容量管理和節(jié)能三個方面介紹數(shù)字孿生技術(shù)的應(yīng)用和前景。

1.IT變更管理

IT變更是運維工作中每天可能發(fā)生的事件,目前很多數(shù)據(jù)中心在進行IT設(shè)備變更的時候仍是比較盲目,往往根據(jù)經(jīng)驗進行,而數(shù)字孿生模型將可以終結(jié)盲目。表1給出了數(shù)字孿生技術(shù)的IT變更應(yīng)用流程。

3D仿真技術(shù)將以真實IT部署進行建模,以保證數(shù)字孿生模型與現(xiàn)實物理模型一致。除了在外形尺寸上一致,數(shù)字孿生模型更重要的是與物理現(xiàn)實內(nèi)在的運行數(shù)據(jù)一致。因此需要對運行數(shù)據(jù)進行采集和分析,從而為下一步行動決策提供依據(jù)。

IT變更是數(shù)字孿生技術(shù)在運維階段最基本的應(yīng)用,看上去并不復(fù)雜,但它可以讓運維人員進行的變更不再盲目,也避免了潛在風(fēng)險。圖3是實際數(shù)據(jù)中心的數(shù)字模型,所有的IT設(shè)備型號、位置及運行狀態(tài)都與實際數(shù)據(jù)中心完全一致。狀態(tài)數(shù)據(jù)可通過傳感器進行實時交互。

2.容量管理

數(shù)據(jù)中心的容量是商業(yè)運營最關(guān)心的指標之一。據(jù)市場統(tǒng)計,數(shù)據(jù)中心的平均容量利用率為70%,也就是說如果建設(shè)了一個容量為10MW的數(shù)據(jù)中心,實際上只部署了7MW的設(shè)備,還有3MW無法利用。如果按每kW建設(shè)成本3萬元人民幣計算,這個數(shù)據(jù)中心建設(shè)成本就損失了9000萬元。那么數(shù)字孿生技術(shù)是否可以幫助減少容量損失呢?答案是肯定的。

首先要進行的分析是這3MW的容量沒有被利用的原因。通過構(gòu)建的3D可視化模型,分析可以發(fā)現(xiàn),數(shù)據(jù)中心實際IT設(shè)備的部署往往與設(shè)計階段有較大差別。以一個機柜為例,設(shè)計時按照完全一樣的IT設(shè)備滿負荷部署,但實際上是由不同類型、不同規(guī)格、不同性能的IT設(shè)備組成,設(shè)備運行產(chǎn)生的熱量不是均勻分布的,這就有可能造成局部熱點。如果有設(shè)備高溫報警,擔心IT設(shè)備進風(fēng)溫度過高,此機柜不再添加設(shè)備,因此它的利用率通常不高于70%。

數(shù)據(jù)中心的容量利用率取決于其空間、承重、電力、冷卻和氣流等五個利用率,而通常在數(shù)據(jù)缺乏的情況下,不能確定到底短板在哪里,而數(shù)字孿生模型可以通過分析明確短板所在。

圖4是某數(shù)據(jù)中心數(shù)字孿生模型提供的信息,圖4(a)可以看出氣流已經(jīng)達到80%利用率,而電力為60%,而當氣流達到100%時,電力為80%,這樣就意味著電力20%的損失。而通過數(shù)字孿生模型優(yōu)化以后,圖4(b)所示氣流浪費減少,實際氣流利用率下降,于是該數(shù)據(jù)中心就有了40%的容量可以布局IT設(shè)備。

3.節(jié)能運行的應(yīng)用

數(shù)據(jù)中心的節(jié)能運行是近些年的熱點,各種節(jié)能設(shè)備和技術(shù)應(yīng)運而生。比如間接蒸發(fā)冷卻AHU、液冷都是目前節(jié)能效率較高的技術(shù),也有較多應(yīng)用案例。而人工智能(AI)、機器學(xué)習(xí)(MachineLearning)等技術(shù)也正在被廣泛研究和應(yīng)用。

谷歌數(shù)據(jù)中心2017年就將機器學(xué)習(xí)的技術(shù)應(yīng)用到其數(shù)據(jù)中心節(jié)能運行中,截至2018年通過對大量運行數(shù)據(jù)的機器學(xué)習(xí)和使用,數(shù)據(jù)中心節(jié)能達30%。數(shù)字孿生技術(shù)能夠幫助充分利用其CFD仿真模擬的優(yōu)勢,并與AI技術(shù)結(jié)合達到數(shù)據(jù)中心節(jié)能運行的目的。機器學(xué)習(xí)的方法很多,這里討論兩種常用方法,監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。

①數(shù)字孿生技術(shù)與監(jiān)督學(xué)習(xí)結(jié)合

谷歌采用的機器學(xué)習(xí)即是監(jiān)督學(xué)習(xí)的方法,該方法需要大量的運行數(shù)據(jù)樣本用于訓(xùn)練。樣本數(shù)據(jù)量越大,機器學(xué)習(xí)模型越準確。針對不同數(shù)據(jù)中心,可以設(shè)置同的輸入變量和輸出變量。輸入變量通常包括:表征系統(tǒng)實時負載的變量,表征冷卻系統(tǒng)運行的控制變量以及表征環(huán)境的變量,如:IT設(shè)備發(fā)熱功耗,冷機供回水溫度、流量、空調(diào)送回風(fēng)溫度、風(fēng)量、大氣溫濕度等值。

輸出變量可設(shè)定為PUE值最低,約束為IT設(shè)備進風(fēng)溫度不超過27℃或者其它溫度。通過大量的運行樣本數(shù)據(jù),監(jiān)督學(xué)習(xí)的方法可以在輸入量和輸出量之間建立相應(yīng)的數(shù)學(xué)模型,然后可以根據(jù)輸出變量目標值和約束條件,最優(yōu)化獲得最佳的控制變量數(shù)值,從而達到節(jié)能目標。

現(xiàn)有的數(shù)據(jù)中心,雖然有大量的基礎(chǔ)設(shè)施運行數(shù)據(jù),但是由于并未提前有計劃的部署傳感器和控制器,導(dǎo)致監(jiān)控的變量缺失或變化范圍小等原因,機器學(xué)習(xí)獲得的數(shù)學(xué)模型并不足以表征輸出變量的主要影響因素,最終導(dǎo)致無法獲得最優(yōu)化的PUE值。因此我們可以借助CFD數(shù)字孿生模型(90%以上相似度)來模擬不同的運行工況,從而補充大量的運行數(shù)據(jù),并提供給AI算法,這將大大提升AI模型的泛化水平。CFD數(shù)字孿生模型與實際運行數(shù)據(jù)也可以有90%以上的相似度,是可信的。下面以一個案例簡單說明:

如圖5所示,數(shù)據(jù)中心147平方米,采用高架地板下送風(fēng),部署機柜44臺,單機柜負載4.5kW,部署空調(diào)4臺,每臺冷量60kW,風(fēng)量320立方米/分。目標為空調(diào)末端能耗最低,即空調(diào)風(fēng)量最少,控制變量為空調(diào)風(fēng)機轉(zhuǎn)速最低,同時約束IT機柜進風(fēng)溫度不超過24℃?;谶@個條件,我們建立數(shù)字孿生模型且在相應(yīng)的位置安裝傳感器。通過CFD仿真模型,模擬獲得需要的運行數(shù)據(jù)樣本,機器學(xué)習(xí)的步驟如圖6所示。

本項目監(jiān)督學(xué)習(xí)中通過DOE設(shè)計工況得到空調(diào)轉(zhuǎn)速組合(圖7),再通過CFD數(shù)字孿生模型計算得到數(shù)據(jù)樣本,然后通過高斯回歸的算法,得到預(yù)測結(jié)果,再回到數(shù)字孿生模型上進行驗證。

如圖8所示,圖8(a)為優(yōu)化之前空調(diào)全部轉(zhuǎn)速均為100%,圖8(b)為優(yōu)化之后空調(diào)轉(zhuǎn)速下降了23.5%,全年可節(jié)能50%。

②數(shù)字孿生與強化學(xué)習(xí)結(jié)合

監(jiān)督學(xué)習(xí)方法的優(yōu)點是計算速度快,缺點是需要大量樣本數(shù)據(jù)。而強化學(xué)習(xí)剛無需樣本數(shù)據(jù),但缺點是計算較慢。強化學(xué)習(xí)的方法也很多,本案例采用了Q-Learning的方法。目標:空調(diào)的最小風(fēng)量。約束:IT設(shè)備進風(fēng)溫度小于27℃。

圖9為數(shù)字孿生模型,其面積為36m2,采用地板下送風(fēng),空調(diào)一臺,冷量60kW,風(fēng)量216立方米/分,機柜6臺,每臺8kW。

強化學(xué)習(xí)的思路是根據(jù)風(fēng)機運行的當前狀態(tài)確定下一步動作,狀態(tài)為風(fēng)機轉(zhuǎn)速輸出0%~100%,動作為轉(zhuǎn)速上升、不動作、下降,每次調(diào)整1%,同時轉(zhuǎn)速調(diào)整還要滿足IT設(shè)備進風(fēng)溫度低于27℃的條件,轉(zhuǎn)速上升、不動作、下降的區(qū)間分別為大于等于27℃;小于27℃大于等于26℃;小于26℃三種情況。

強化學(xué)習(xí)最后直接輸出最優(yōu)的風(fēng)機轉(zhuǎn)速,并且實際反應(yīng)在數(shù)字孿生模型中。當做出正確預(yù)測方向則給予獎勵,當做出錯誤預(yù)測,如機柜進風(fēng)溫度超過27℃,則給予懲罰。如此循環(huán)直至結(jié)束。

表2為強化學(xué)習(xí)的Q表,第1列風(fēng)機轉(zhuǎn)速輸出,第2-4列為Q值,Q值大的地方為優(yōu)化后的轉(zhuǎn)速,從表2中可以看出空調(diào)風(fēng)機最優(yōu)轉(zhuǎn)速輸出在60%~63%之間。

表2中在風(fēng)機轉(zhuǎn)速61%時Q值在不動作時最大,所以這個值為最優(yōu)解。

未來趨勢

事實上數(shù)字孿生技術(shù)在數(shù)據(jù)中心的應(yīng)用還有很多,未來隨時技術(shù)的發(fā)展和成熟會有更多方面的應(yīng)用。不僅僅包括數(shù)據(jù)中心運行維護,安防、網(wǎng)絡(luò)安全、財務(wù)等都可能與數(shù)字孿生模型上互相交叉獲取數(shù)據(jù)并進行分析,使數(shù)據(jù)中心運行在最安全、最綠色的狀態(tài),使企業(yè)運行在最簡單、最盈利的狀態(tài)。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論