數(shù)據中心基礎設施運維管理——應急管理

突發(fā)或緊急事件發(fā)生時,應按照分級負責、快速反應的原則響應,數(shù)據中心應急預案及響應等級劃分可參照國家應急預案標準,結合數(shù)據中心的屬性和等級制定。

本文來自微信公眾號“數(shù)據中心運維管理”。

應急管理,是對數(shù)據中心運維過程中所發(fā)生的緊急的非常態(tài)運行狀況的措施部署與管理,數(shù)據中心基礎設施的運行可能會遇到緊急狀況的發(fā)生,而緊急狀況是數(shù)據中心基礎設可靠性和業(yè)務連續(xù)性的最大挑戰(zhàn),辨識和處理緊急狀況是衡量運維能力的重要指標。運維要時刻準備好面對緊急狀況的發(fā)生,實際中,由于緊急狀況難以提前判斷,所以對于應急工作的管理,更多體現(xiàn)在各類應急場景的應急預案準備和演練的機制及措施上。

一、應急管理的定義

1.應急的定義

應急是對超出一般運行狀態(tài)的工況立即采取必要的應對措施,以降低突發(fā)狀況給系統(tǒng)可用性和連續(xù)性帶來的威脅和影響。

2.應急管理的定義

應急管理是根據數(shù)據中心實際運行情況為緊急和突發(fā)的非正常運行工況而設定的一系列流程、制度、預案等應對措施的管理工作。

二、應急管理的目的

應急管理的目的是能夠及時和正確地處理突發(fā)緊急狀況,達到預期處理效果,降低或消除影響,恢復數(shù)據中心基礎設施系統(tǒng)的可用性。具體表現(xiàn)在:

1)使運維人員有采取應急措施的依據,且能正確高效處理應急狀況。

2)對應急狀況控制和監(jiān)控,降低損失,保障運行現(xiàn)場的人員安全和設施安全。

3)盡快恢復系統(tǒng)運行和盡可能恢復服務等級。

三、應急管理的范圍

應急管理的范圍包括基礎設施運維過程中產生的所有應急狀況。應急狀況一般分為兩類:一類是常規(guī)的緊急事件,不可預估,需設置一般性應急處理流程,另一類是可預估應急狀況,需要制定完善的應急預案,定期實施應急演練。

四、應急管理的流程

1.主要流程

應急管理的流程應當是針對數(shù)據中心實際運行情況,從風險分析開始到正確處理應急事件的全過程,主要包括:

1)風險分析。

2)場景梳理。

3)體系建立。

4)應急演練。

5)優(yōu)化配置。

6)循環(huán)改進。

2.應急響應

突發(fā)或緊急事件發(fā)生時,應按照分級負責、快速反應的原則響應,數(shù)據中心應急預案及響應等級劃分可參照國家應急預案標準,結合數(shù)據中心的屬性和等級制定。應急預案應按照風險發(fā)生的可能性以及發(fā)生后果的嚴重性制定,并應確保對應應急場景下的可接受的服務目標的實現(xiàn),應急預案不僅包括EOP,還應包括以下內容:

1)應急預案的使用原則和適用場景。

2)應急人員的組織架構及職責。

3)警報等級的劃分及啟動應急響應的策略.

4)應急狀況下的通報制度。

5)應急狀況下的關鍵可用資源。

6)應急狀況所造成直接后果的詳細說明。

7)在預定的時間里繼續(xù)或恢復數(shù)據中心運行的具體措施。

8)應急結束后的退出過程及善后工作。

9)應急處理信息的存檔。

3.與其他流程的關系

應急狀況發(fā)生時,可能會觸發(fā)其他流程,此時就要與其他流程共同完成應急處理。例如,事件管理流程、問題管理流程、變更管理流程等。

4.管理策略

應急管理應遵循以下策略:

1)應急處理有章可循,有法可依。

2)遵守國家相關法律法規(guī),遵守數(shù)據中心所在地區(qū)的行政法律法規(guī)。

3)在保障運維人員生命安全的前提下,最大限度保障生產,降低損失和減小影響。

4)應急處理要做到統(tǒng)一領導,分級指揮,充分利用已備資源,突出保障重點。

5)應急處理的信息發(fā)布應當及時、準確、客觀、全面。

6)對應急處理工作進行復盤和總結。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論