如何應(yīng)對數(shù)據(jù)中心突發(fā)事件

機(jī)房360
CC編譯
摘要:數(shù)據(jù)中心運(yùn)維團(tuán)隊(duì)需能夠在沒有任何預(yù)警的情況下,能夠迅速、有效地應(yīng)對突發(fā)狀況。對于不可預(yù)見的問題,故障、危險(xiǎn)可導(dǎo)致人身傷害或宕機(jī)的情況,都需有應(yīng)對措施。
       數(shù)據(jù)中心運(yùn)維團(tuán)隊(duì)需能夠在沒有任何預(yù)警的情況下,能夠迅速、有效地應(yīng)對突發(fā)狀況。對于不可預(yù)見的問題,故障、危險(xiǎn)可導(dǎo)致人身傷害或宕機(jī)的情況,都需有應(yīng)對措施。只有做好充分準(zhǔn)備,才可以迅速響應(yīng),最大限度降低突發(fā)狀況對數(shù)據(jù)中心影響,并有效防止事故再次發(fā)生。文章描述對關(guān)鍵設(shè)備有效應(yīng)急準(zhǔn)備以及響應(yīng)戰(zhàn)略體系。內(nèi)容由7部分組成,分為3類:緊急響應(yīng)程序,緊急演習(xí)和事件管理。

 即使經(jīng)過專業(yè)設(shè)計(jì)與Tier IV認(rèn)證的數(shù)據(jù)中心,也不能保證其100%的可靠性。由于IT系統(tǒng)意外停機(jī),業(yè)務(wù)中斷始終是一種潛在風(fēng)險(xiǎn)。做足準(zhǔn)備是一種最好的抵御方式,并有助于確保及時(shí)應(yīng)對。

 準(zhǔn)備工作從為確定高風(fēng)險(xiǎn)故障(例如冷卻設(shè)備受損,發(fā)電機(jī)啟動(dòng)失敗等)到開啟緊急操作程序(EOP),還需要制定和演練升級程序,以確保通知指揮系統(tǒng),并隨著形勢的發(fā)展調(diào)派資源。

 應(yīng)定期對運(yùn)維團(tuán)隊(duì)成員進(jìn)行情境演練,評估團(tuán)隊(duì)面對突發(fā)狀況的反應(yīng)與應(yīng)激能力、個(gè)人對應(yīng)急事件響應(yīng)的狀態(tài)與效果。一旦遇到突發(fā)狀況,為降低其帶來的影響,應(yīng)在事后進(jìn)行充分分析,找到發(fā)生事件根本原因,分析響應(yīng)應(yīng)急措施在處理這狀況時(shí)的效果以及待改善的地方。對重大設(shè)備事件故障分析是全部完善過程的基本組成部分,最終目的在于降低故障率,并提高應(yīng)對未來發(fā)生不可預(yù)見事件的處理速度。

  表1:簡要概述數(shù)據(jù)中心有效應(yīng)急準(zhǔn)備和響應(yīng)計(jì)劃的主要方面。有七部分,被分組在三個(gè)分類中。


 首先我們來看EOP,需要對突發(fā)狀況現(xiàn)場進(jìn)行快速、安全地隔離,同時(shí)盡快恢復(fù)服務(wù)、提供急救是緊急響應(yīng)流程中的最重要與關(guān)鍵的方面。

 接下來,危機(jī)管理計(jì)劃(CMP)被描述為處理數(shù)據(jù)中心緊急情況、危機(jī)的總體計(jì)劃,如果不定期檢查,將導(dǎo)致災(zāi)難。(關(guān)于術(shù)語“危機(jī)”和“災(zāi)難”的解釋,見下)。最后,應(yīng)急演練和事件管理的作用被解釋為一個(gè)方案的重要方面,以便為問題不斷做好準(zhǔn)備,并更好地發(fā)現(xiàn)問題在他們成為一個(gè)危機(jī)或更糟的,一場災(zāi)難。

 一、應(yīng)急操作流程

 *名詞釋義:

 危機(jī) :遇到緊急的,重要事件,如不能及時(shí)響應(yīng),將最終導(dǎo)致系統(tǒng)中斷、業(yè)務(wù)虧損或人員受傷。

 危機(jī)管理計(jì)劃(CMP)涉及準(zhǔn)備,發(fā)現(xiàn)和緩解危機(jī)。

 緊急操作程序(EOP)用于應(yīng)對危機(jī),因?yàn)樗诎l(fā)展以防止災(zāi)難的希望。例如:UPS冗余出現(xiàn)故障,發(fā)電機(jī)燃料用盡,UPS電池組故障等)

 災(zāi)難或緊急: - 導(dǎo)致系統(tǒng)嚴(yán)重?fù)p壞、停機(jī),業(yè)務(wù)中斷或人身傷害的事件或情況。

 一、應(yīng)急操作流程(EOP):用于應(yīng)對災(zāi)難或緊急

 示例:在UPS電池能源耗盡,火災(zāi),開關(guān)設(shè)備時(shí)出現(xiàn)電弧爆炸等任何可能導(dǎo)致立即停機(jī)或受傷的情況。

 (說明:構(gòu)成“危機(jī)”和“災(zāi)難”的事件因數(shù)據(jù)中心自身不同而不同,取決于各自認(rèn)為關(guān)鍵或緊急的事件。)

 緊急操作流程(EOP):

 被就用于處理危機(jī)和災(zāi)難。 EOP流程應(yīng)作為文檔被留存,詳細(xì)記錄針對應(yīng)對危機(jī)或?yàn)?zāi)難被批準(zhǔn)的流程。響應(yīng)流程包括:如何安全隔離故障;如何恢復(fù)服務(wù)或冗余。 EOP旨在使運(yùn)維人員對遇到的突發(fā)事件做出正確的反應(yīng),從而達(dá)到安全的目的,并最大限度地減少緊急情況的持續(xù)時(shí)間與影響。

 EOP具有多重功能:

 首先,它幫助運(yùn)維人員盡快將受影響的系統(tǒng)置于受控或穩(wěn)定的狀態(tài)。

 第二,它提供逐步指導(dǎo),以確保所有活動(dòng)都以安全和有效的方式進(jìn)行。這樣做是為防止進(jìn)一步(或范圍更廣的)的服務(wù)中斷,設(shè)備損壞或人身傷害。這些負(fù)面或可能甚至毀滅性的影響是由于以不受控制的方式執(zhí)行工作,通過省略必要的步驟,或者通過不正確地執(zhí)行,或半心半意地執(zhí)行。

 第三是作為新操作員的培訓(xùn)工具。它們應(yīng)被用作在員工培訓(xùn)計(jì)劃中進(jìn)行場景演練和測試的基礎(chǔ)。在客戶或管理層審計(jì)或評估時(shí),它們也很重要,以證明有效的應(yīng)急準(zhǔn)備和響應(yīng)。

 將EOP等同于標(biāo)準(zhǔn)操作程序(SOP)是一個(gè)常見的錯(cuò)誤。 SOP為執(zhí)行日常正常操作類型任務(wù)(例如將UPS置于旁路或其它維護(hù)任務(wù))提供通用指導(dǎo)或指示。

 SOP涉及如何操作或維護(hù)系統(tǒng)。它沒有描述如何處理和從故障或緊急情況中恢復(fù)系統(tǒng)。

 如果運(yùn)維人員僅僅依靠SOP來了解設(shè)備如何運(yùn)行與維護(hù),其結(jié)果就導(dǎo)致應(yīng)對緊急情況經(jīng)驗(yàn)不足。導(dǎo)致故障發(fā)生原因與產(chǎn)生的后續(xù)影響通常與多個(gè)系統(tǒng)有關(guān)。另一方面,SOP通俗點(diǎn)兒說,就是固定的流程,靈活性不強(qiáng)。因此,SOP對于運(yùn)維人員了解各個(gè)系統(tǒng)之間相互聯(lián)系而言,并不實(shí)用。不過,具備這些知識卻對于快速診斷和解決問題至關(guān)重要。此外,沒有針對高風(fēng)險(xiǎn)故障情況的特定EOP流程,無法提前進(jìn)行模擬演練,無法為此狀況做更多準(zhǔn)備。

 應(yīng)將EOP文檔副本流程張貼在執(zhí)行區(qū)域周圍。正本文件放在辦公室保存。持續(xù)跟進(jìn)EOP使用情況、實(shí)時(shí)根據(jù)需要修訂EOP,確保使用執(zhí)行時(shí)流程清晰簡明。

 EOP是在故障發(fā)生后,保障系統(tǒng)運(yùn)行穩(wěn)定、和恢復(fù)系統(tǒng)的最重要的工具。EOP執(zhí)行過程中需要運(yùn)維人員具備豐富經(jīng)驗(yàn)、參加過EOP模擬演練的,從而在EOP執(zhí)行過程中明確他們擔(dān)負(fù)的責(zé)任與任務(wù),可以做到迅速響應(yīng)。在開發(fā)EOP之前,先將所有可能的、或高風(fēng)險(xiǎn)的故障情況列出一份清單。最常見的故障見表2。應(yīng)為每一個(gè)故障寫一個(gè)EOP。當(dāng)然,運(yùn)維人員和他們的經(jīng)理不能預(yù)見所有的問題,但他們可以預(yù)估最壞的情況,做好最壞的準(zhǔn)備。

 所有這些文件都應(yīng)被妥善保存。EOP執(zhí)行只能由在現(xiàn)場的運(yùn)維人員進(jìn)行操作,外部承包商在某些情況下可以在運(yùn)維人員指導(dǎo)下執(zhí)行EOP中一些步驟。經(jīng)驗(yàn)表明,經(jīng)過一定培訓(xùn)的運(yùn)維人員,可以有效地抵消遇到緊急情況下心理的恐慌感。對運(yùn)維人員而言,做足充分準(zhǔn)備意味著在千鈞一發(fā)的那一刻,運(yùn)維人員根據(jù)現(xiàn)場突發(fā)狀況迅速做出判斷,可以在緊要關(guān)頭為數(shù)據(jù)中心挽回一部分損失。

 有效的訓(xùn)練方法是情境演練,通過預(yù)先設(shè)定好的情境,模擬故障發(fā)生時(shí)的情境。必要時(shí),可以使用道具(如彩色便利貼)來模擬面板指示器或開關(guān)位置,以此鍛煉運(yùn)維人員的操作能力并評估他們對現(xiàn)場問題的反應(yīng)能力。

  表2:



 2.危機(jī)管理計(jì)劃(CMP)

 危機(jī)管理要素:

 規(guī)劃

 程序

 實(shí)施

 測試和培訓(xùn)

 危機(jī)類型

 災(zāi)難類型

 第一反應(yīng)

 通知

 咨詢

 授權(quán)

 緩解

 迭代

 事件后分析

 報(bào)告

 危機(jī)管理計(jì)劃(CMP)是一系列規(guī)定與流程,是幫助運(yùn)營商在遇到真正緊急狀況或?yàn)?zāi)難時(shí),提前做好準(zhǔn)備、了解如何應(yīng)對,根據(jù)EOP流程進(jìn)行應(yīng)對 。在危機(jī)管理的過程中,CMP應(yīng)對所有參與者尤其是利益相關(guān)者進(jìn)行密切審查。這包括運(yùn)維人員,運(yùn)營商,以及在數(shù)據(jù)中心內(nèi)工作的IT經(jīng)理以及和他們團(tuán)隊(duì)的工作人員。該計(jì)劃旨在指導(dǎo)工作人員發(fā)現(xiàn)、預(yù)防以及應(yīng)對各種危機(jī)狀況,最終目標(biāo)為數(shù)據(jù)中心提供一個(gè)安全,響應(yīng)迅速、可靠的執(zhí)行方案,盡最大限度的為防止意外狀況演變成一場災(zāi)難做出努力。

 準(zhǔn)備和預(yù)防

 最好的危機(jī)管理工具是什么? 是預(yù)防。眾所周知,大部分?jǐn)?shù)據(jù)中心業(yè)務(wù)中斷是人為錯(cuò)誤導(dǎo)致的直接或間接的結(jié)果。這些錯(cuò)誤大部分發(fā)生在工作人員在對設(shè)備進(jìn)行安裝與維護(hù)期間,由于操作不當(dāng)導(dǎo)致的意外狀況發(fā)生。

 為盡可能最大限度減少此類錯(cuò)誤,運(yùn)維人員應(yīng)接受在專業(yè)領(lǐng)域方面的密集培訓(xùn),以確保在對設(shè)備進(jìn)行維護(hù)與巡檢時(shí),表現(xiàn)出操作的專業(yè)水準(zhǔn),減少人為故障。應(yīng)將為數(shù)據(jù)中心所有工作內(nèi)容建立標(biāo)準(zhǔn)操作流程作為首要目標(biāo)(標(biāo)準(zhǔn)操作程序或“SOP”),工作人員可通準(zhǔn)操作流程對設(shè)備進(jìn)行維護(hù)、保養(yǎng),降低人員操作風(fēng)險(xiǎn)。建議將建立的標(biāo)準(zhǔn)流程全部由業(yè)界專業(yè)人士進(jìn)行測評,并由業(yè)界專家對其技術(shù)與流程方面的精準(zhǔn)性進(jìn)行額外審查。尤其要對各種風(fēng)險(xiǎn)情況進(jìn)行合理分類,做好安全準(zhǔn)備,工作任務(wù)排序以及退出流程。

 另一項(xiàng)重要的活動(dòng)是識別極有可能發(fā)生的故障或間接導(dǎo)致系統(tǒng)發(fā)生故障的模式,這是是否使用緊急操作程序(EOP)的先決條件。這項(xiàng)練習(xí)不僅確定在此之前有無必要執(zhí)行EOP,而且也將有助于防止此類事件發(fā)生,這是做好識別與準(zhǔn)備過程的必然結(jié)果。流程一旦建立,需定期做EOP演習(xí),提前協(xié)調(diào)工作人員按時(shí)參加。

 檢測和事件分類

 當(dāng)危機(jī)發(fā)生時(shí),如何識別危機(jī)?不是所有的事件一眼就能看出機(jī)關(guān)。通常,一個(gè)完全可控的情況會(huì)隨著時(shí)間的變化演變成一場危機(jī),這會(huì)讓運(yùn)維人員措手不及。 對于運(yùn)維人員而言,識別事件的早期預(yù)警標(biāo)志以及了解各類設(shè)備臨界值時(shí)很必要的。

 緊急情況和危機(jī)時(shí)有區(qū)別的。通過使用已經(jīng)通過審核的流程來管理的緊急情況通常不會(huì)被視為危機(jī)。例如UPS冗余出現(xiàn)問題或空調(diào)機(jī)組冷量不夠可能被認(rèn)為危機(jī),按照既定流程執(zhí)行EOP,則可以以有序、受控的方式解決這次事件,而不會(huì)等到發(fā)生宕機(jī)或傷害的災(zāi)難級別。

 危機(jī)特征就是失控;如果突發(fā)情況已超越可控管理范圍,現(xiàn)場局面已構(gòu)成威脅,這種情況確立為危機(jī)。危機(jī)的另一個(gè)特征是意外狀況造成損害嚴(yán)重,有可能危及到整個(gè)系統(tǒng)。例如,關(guān)鍵負(fù)載突然中斷,雖然由與之對應(yīng)的響應(yīng)計(jì)劃,但遇到這種狀況需確立為危機(jī)。

 數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)軟件工具可以有效幫助數(shù)據(jù)中心對環(huán)境設(shè)備進(jìn)行集中監(jiān)控,了解數(shù)據(jù)中心設(shè)備系統(tǒng)狀態(tài)變化和報(bào)警的有效方法,從而在遇到危機(jī)或?yàn)?zāi)難的問題和狀況時(shí),能及時(shí)通知運(yùn)維人員。DCIM軟件同時(shí)還提供變更管理、工作訂單以及模擬添加、移動(dòng)和其他更改等功能,確保操作不會(huì)導(dǎo)致任何問題。

 在危機(jī)或?yàn)?zāi)害的情況下,快速識別分類事件的能力是危機(jī)管理中至關(guān)重要的第一步,這對及時(shí)響應(yīng)以及策略性的溝通是有必要的。

 反應(yīng)和緩解

 一旦危機(jī)或?yàn)?zāi)難被宣布,通常,運(yùn)營商會(huì)馬上采取行動(dòng)解決這個(gè)問題。然而,在充分了解情況并制定周全的響應(yīng)計(jì)劃之前,立即行動(dòng)有可能導(dǎo)致進(jìn)一步危害或停機(jī)的風(fēng)險(xiǎn)。除非在事件非常明顯的情況下才需要立即采取行動(dòng)(例如火災(zāi)),合理的行動(dòng)是圍繞發(fā)生的事件制定計(jì)劃,并與相關(guān)專家以及利益攸關(guān)方共同制定。從長遠(yuǎn)來看,將時(shí)間放在制定計(jì)劃上,比起倉促行動(dòng)更能為數(shù)據(jù)中心提供更安全、可靠以及更持久的解決方案。

 當(dāng)然,如果對人身安全、配電設(shè)備造成直接威脅,應(yīng)立即采取行動(dòng),降低設(shè)備損失。如果某人正在或即將受到傷害,就需要立即采取行動(dòng),無需通過審議,只要這種草率行為不會(huì)傷及任何人。同樣,如果有手段控制火情或者用安全手段熄滅它,立即采取行動(dòng)是可行的。這只是兩個(gè)可能的例子,做出第一反應(yīng)是合理、謹(jǐn)慎的。話雖如此,當(dāng)遇到需要立即做出第一反應(yīng)的情況,都需特別小心。只有當(dāng)風(fēng)險(xiǎn)高,并且能預(yù)見后果,才可考慮立即做出反應(yīng)行動(dòng)。

 做出第一反應(yīng)行動(dòng)后,首要任務(wù)是立即對事故進(jìn)行評估,需將關(guān)于情況涉及的范圍、嚴(yán)重性等所有信息進(jìn)行評估,同時(shí)將設(shè)備的狀態(tài)、穩(wěn)定性也進(jìn)行評估。必須快速收集這些數(shù)據(jù),以及隨著事故變化不斷更新數(shù)據(jù),以便對事故做出適當(dāng)補(bǔ)救措施,同時(shí)保證溝通的有效性。能夠做到這一點(diǎn)的運(yùn)維人員,都經(jīng)過專業(yè)知識的培訓(xùn),以及大量的情境演練,具備良好的心理素質(zhì),才能應(yīng)對這樣的場面。

 恢復(fù)與分析

 一旦事故解決,應(yīng)將事故分析報(bào)告第一時(shí)間發(fā)給相關(guān)部門人員,最好是在事件解決方案制定后的一星期內(nèi)發(fā)出。故障分析報(bào)告應(yīng)包括:

 主要原因分析:

 ? 經(jīng)驗(yàn)教訓(xùn)報(bào)告 :參與者反思事件如何發(fā)生,以及從中學(xué)到的教訓(xùn)

 ? 執(zhí)行過程: 包含具體建議和一系列行動(dòng),以改善團(tuán)隊(duì)對特定事件的響應(yīng)。

 ? 對現(xiàn)有運(yùn)營商以及新員工持續(xù)培訓(xùn),確保他們了解行動(dòng)的意義與價(jià)值。

 ? 所有這一切旨在防止同樣的危機(jī)或緊急情況再次發(fā)生。

 升級程序:

 隨著情況從正常到緊急再到潛在危機(jī),甚至到災(zāi)難級別,隨之帶來的問題就是對設(shè)備升級。這是為保證設(shè)備在恰當(dāng)?shù)臅r(shí)間內(nèi)獲得恰當(dāng)?shù)闹R與資源。升級管理可能是一項(xiàng)緊迫的任務(wù),但正確的流程將有助于其盡可能輕松有效地管理升級。

 對業(yè)務(wù)進(jìn)行適當(dāng)升級以及 “幸免于難”是應(yīng)急準(zhǔn)備與響應(yīng)策略的一個(gè)重要因素。運(yùn)維人員,團(tuán)隊(duì)管理層,客戶和供應(yīng)商之間的有效溝通是確保情況已受到控制,所有相關(guān)資源都集中在事件的處理上。雖然沒有單一的逐步升級程序保證解決每個(gè)問題,但有一些基本要素可以確保內(nèi)部流程成功。為升級程序提供框架,下面的表3示意升級過程與時(shí)間示例。它可以被修改,從而適應(yīng)任何組織具體要求與期望。

THEEND