為什么數(shù)據(jù)中心需要更好的預(yù)警系統(tǒng)降低熱失控風(fēng)險(xiǎn)

借助這種實(shí)時(shí)熱監(jiān)控技術(shù),可以跟蹤冷卻輸出并提前識(shí)別出性能不佳的冷卻系統(tǒng),以便及時(shí)進(jìn)行改進(jìn)。在這里,數(shù)據(jù)中心機(jī)架和精密空調(diào)監(jiān)控對(duì)于發(fā)現(xiàn)典型的冷卻系統(tǒng)和BMS系統(tǒng)無(wú)法發(fā)現(xiàn)或隱藏的但易于修復(fù)的冷卻和氣流問(wèn)題至關(guān)重要。

通過(guò)人工智能和機(jī)器學(xué)習(xí)技術(shù),數(shù)據(jù)中心可以采用與建筑管理系統(tǒng)(BMS)同時(shí)運(yùn)行的軟件解決方案,以識(shí)別和管理熱失控風(fēng)險(xiǎn)。

2020年似乎成為10年來(lái)最熱的年份之一,歐洲今年夏季氣溫很快就達(dá)到去年夏季溫度的最高水平,這給當(dāng)?shù)財(cái)?shù)據(jù)中心的運(yùn)營(yíng)敲響了警鐘。高溫不可避免地為數(shù)據(jù)中心帶來(lái)了冷卻方面的挑戰(zhàn),英國(guó)有記錄以來(lái)最熱的10年是從2002年開(kāi)始的,數(shù)據(jù)中心冷卻策略顯然需要組織為夏季高溫帶來(lái)的任何問(wèn)題做好準(zhǔn)備。

鑒于冷卻問(wèn)題仍占數(shù)據(jù)中心計(jì)劃外停機(jī)的近三分之一,因此,數(shù)據(jù)中心的風(fēng)險(xiǎn)規(guī)劃必須考慮到溫度升高的影響。不幸的是,大多數(shù)組織似乎仍然沒(méi)有意識(shí)到數(shù)據(jù)中心的過(guò)熱風(fēng)險(xiǎn),這種風(fēng)險(xiǎn)會(huì)迅速使數(shù)據(jù)中心的運(yùn)營(yíng)處于危險(xiǎn)之中。冷卻問(wèn)題目前已成為數(shù)據(jù)中心服務(wù)中斷的第二大原因,對(duì)于組織而言,通過(guò)優(yōu)化散熱性能來(lái)降低這種風(fēng)險(xiǎn)至關(guān)重要。

識(shí)別預(yù)警信號(hào)

熱失控問(wèn)題在很短的時(shí)間就能產(chǎn)生,即使是經(jīng)驗(yàn)豐富的數(shù)據(jù)中心運(yùn)營(yíng)團(tuán)隊(duì)也不會(huì)掉以輕心。冷卻設(shè)備故障很容易升級(jí)為熱失控情況,使全天候運(yùn)行的數(shù)據(jù)中心面臨停機(jī)風(fēng)險(xiǎn)。

調(diào)查發(fā)現(xiàn),其中一個(gè)主要原因是現(xiàn)有的解決方案(如BMS)在及時(shí)發(fā)現(xiàn)熱失控方面不是很有效。由于沒(méi)有嚴(yán)重違反服務(wù)等級(jí)協(xié)議(SLA)或發(fā)生故障,冷卻散熱和氣流問(wèn)題通常不會(huì)過(guò)早地觸發(fā)建筑管理系統(tǒng)(BMS)警報(bào)。但是一旦觸發(fā),則為時(shí)已晚,其結(jié)果是散熱問(wèn)題可能會(huì)迅速升級(jí),在數(shù)據(jù)中心運(yùn)營(yíng)團(tuán)隊(duì)解決問(wèn)題之前,將會(huì)產(chǎn)生影響整體性能的局部數(shù)據(jù)中心熱點(diǎn)。

不要等待警報(bào),需要采取更主動(dòng)的方法

組織需要預(yù)防潛在熱失控故障,通過(guò)人工智能和機(jī)器學(xué)習(xí)技術(shù),現(xiàn)在可以采用與BMS系統(tǒng)并行工作的軟件解決方案,以識(shí)別和管理來(lái)自數(shù)據(jù)中心的熱失控風(fēng)險(xiǎn)。

借助這種實(shí)時(shí)熱監(jiān)控技術(shù),可以跟蹤冷卻輸出并提前識(shí)別出性能不佳的冷卻系統(tǒng),以便及時(shí)進(jìn)行改進(jìn)。在這里,數(shù)據(jù)中心機(jī)架和精密空調(diào)監(jiān)控對(duì)于發(fā)現(xiàn)典型的冷卻系統(tǒng)和BMS系統(tǒng)無(wú)法發(fā)現(xiàn)或隱藏的但易于修復(fù)的冷卻和氣流問(wèn)題至關(guān)重要。

A公司開(kāi)發(fā)了數(shù)據(jù)中心的關(guān)鍵監(jiān)視系統(tǒng),現(xiàn)在能夠完成對(duì)關(guān)鍵基礎(chǔ)設(shè)施的遠(yuǎn)程熱失控風(fēng)險(xiǎn)預(yù)測(cè)分析。在最近的一個(gè)示例中,關(guān)鍵監(jiān)視系統(tǒng)的軟件和分析功能用于遠(yuǎn)程識(shí)別異常熱失控行為,遠(yuǎn)程診斷問(wèn)題并建議如何減輕熱失控影響。所有這些都是在BMS系統(tǒng)發(fā)現(xiàn)問(wèn)題之前完成的。

A公司發(fā)布的視頻演示了基于預(yù)測(cè)性分析的方法如何為數(shù)據(jù)中心設(shè)置預(yù)防故障所需的預(yù)警功能。在這一示例中,由于精密空調(diào)發(fā)生故障,具有正常和穩(wěn)定的冷卻負(fù)荷曲線的數(shù)據(jù)中心的溫度很快就變得不穩(wěn)定。其時(shí)間軸如下:

●軟件分析解決方案利用精密空調(diào)中的EkkoAir冷卻負(fù)荷傳感器的性能數(shù)據(jù)來(lái)識(shí)別精密空調(diào)的異常行為。

●軟件分析解決方案可以識(shí)別單個(gè)冷卻效果不佳的精密空調(diào)。

●如果精密空調(diào)出現(xiàn)問(wèn)題,軟件分析解決方案提供了局部熱點(diǎn)的預(yù)警。

●軟件分析解決方案還顯示,其他精密空調(diào)雖然仍在運(yùn)行,但無(wú)法消除熱點(diǎn)。

●軟件分析解決方案建議關(guān)閉發(fā)生故障的精密空調(diào),??以消除再循環(huán)的熱空氣。一旦采取行動(dòng),熱點(diǎn)問(wèn)題立即得到解決。

●調(diào)查并解決了精密空調(diào)問(wèn)題,恢復(fù)正常的冷卻運(yùn)行,并通過(guò)軟件分析解決方案進(jìn)行了確認(rèn)。

在這個(gè)過(guò)程中,現(xiàn)有的BMS在任何時(shí)候都不會(huì)產(chǎn)生警報(bào),因?yàn)闆](méi)有特定的組件故障或警報(bào)閾值被觸發(fā)。這個(gè)例子顯示了分析解決方案的早期風(fēng)險(xiǎn)檢測(cè)分析功能,如何能夠在最終失效之前識(shí)別和診斷性能不佳的冷卻設(shè)備,從而消除潛在的熱失控風(fēng)險(xiǎn),并及時(shí)進(jìn)行維修。它還說(shuō)明了BMS系統(tǒng)缺乏警報(bào)生成,這意味著如果沒(méi)有額外的預(yù)測(cè)分析,數(shù)據(jù)中心團(tuán)隊(duì)將不會(huì)意識(shí)到出現(xiàn)故障或查找出故障位置。通過(guò)對(duì)數(shù)據(jù)中心的整體觀察,關(guān)鍵分析軟件能夠捕捉到細(xì)微的變化,例如設(shè)定值的變化、閥門卡住或格柵移動(dòng)等,這些變化可能會(huì)導(dǎo)致更廣泛的熱失控問(wèn)題。

熱失控之前的預(yù)警

傳統(tǒng)的BMS方法僅在系統(tǒng)出現(xiàn)故障或超出閾值時(shí)才生成警報(bào),A公司的高粒度感測(cè)和關(guān)鍵實(shí)時(shí)算法相結(jié)合,可以在潛在設(shè)備出現(xiàn)故障之前先對(duì)其進(jìn)行突出顯示,以免影響數(shù)據(jù)中心服務(wù)的可用性。

只有從數(shù)據(jù)中心運(yùn)營(yíng)中消除100%的熱失控風(fēng)險(xiǎn),并為后續(xù)的冷卻優(yōu)化項(xiàng)目提供穩(wěn)定的平臺(tái),數(shù)據(jù)中心管理人員才能真正實(shí)現(xiàn)熱失控管理。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論