數(shù)據(jù)中心運(yùn)維之故障處理

數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)與運(yùn)營(yíng)管理
數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)與運(yùn)營(yíng)管理
在數(shù)據(jù)中心運(yùn)維工作中,故障是不可避免的。對(duì)于在出現(xiàn)故障情況時(shí),如何做到將損失降到最低、如何避免今后出現(xiàn)類似故障,總結(jié)出故障處理流程。

在數(shù)據(jù)中心運(yùn)維工作中,故障是不可避免的。對(duì)于在出現(xiàn)故障情況時(shí),如何做到將損失降到最低、如何避免今后出現(xiàn)類似故障,總結(jié)出故障處理流程。

1、糾正錯(cuò)誤

在得知故障發(fā)生后,第一時(shí)間安排人員到現(xiàn)場(chǎng)對(duì)故障情況進(jìn)行查看,確認(rèn)故障的現(xiàn)象與范圍。由引起故障之外的第二人對(duì)故障錯(cuò)誤進(jìn)行糾正,在過(guò)程中注意衍生故障或二次錯(cuò)誤的發(fā)生

對(duì)于不能立即恢復(fù)的故障,可采用臨時(shí)措施修復(fù)故障影響。要注意控制故障范圍的蔓延,盡量將故障影響范圍控制在最小范圍內(nèi)

2、匯報(bào)領(lǐng)導(dǎo)

在故障得到初步控制后,立即上報(bào)領(lǐng)導(dǎo)及通報(bào)相關(guān)部門(mén)。對(duì)于人員配備允許的情況下,在糾正錯(cuò)誤的同時(shí)匯報(bào)領(lǐng)導(dǎo)。盡量早的通知相應(yīng)領(lǐng)導(dǎo)及負(fù)責(zé)人,可對(duì)一線人員給予必要的支持與指導(dǎo),有助于故障的有效控制

3、形成書(shū)面報(bào)告

在故障得到處理或階段性處理完成后,由當(dāng)事人對(duì)故障情況進(jìn)行還原,形成書(shū)面文字報(bào)告,具體詳細(xì)描述事件經(jīng)過(guò),經(jīng)當(dāng)事人確認(rèn)后存檔留存,形成原始記錄

4、查找根本原因

組織當(dāng)事人、故障處理人等相關(guān)人員,根據(jù)實(shí)際故障現(xiàn)象、處理方法、當(dāng)事人情況報(bào)告等資料,進(jìn)行根本原因分析,進(jìn)行必要的理論邏輯推演,確定產(chǎn)生故障的根本原因

5、處罰意見(jiàn)

針對(duì)當(dāng)事人情況報(bào)告、故障根本原因分析,及時(shí)出具處罰意見(jiàn),處罰意見(jiàn)中根據(jù)各人員所負(fù)主要責(zé)任、管理責(zé)任、連帶責(zé)任等進(jìn)行不同的處罰決定

6、整改方案

以故障根本原因?yàn)橐罁?jù),組織相關(guān)人員會(huì)議,討論預(yù)防預(yù)案、整改方案,并進(jìn)行培訓(xùn)學(xué)習(xí),引以為戒;對(duì)相同類工作進(jìn)行相關(guān)三個(gè)月回溯檢查,檢查排除潛在隱患

7、后續(xù)跟進(jìn)

在事件處理完畢后,持續(xù)至少三個(gè)月事件跟蹤評(píng)測(cè),查看整改方案的執(zhí)行力度與落實(shí)情況,對(duì)在執(zhí)行過(guò)程中暴露的新問(wèn)題再進(jìn)行適當(dāng)?shù)恼{(diào)整與完善

通過(guò)樹(shù)立更新組織過(guò)程資產(chǎn),建立經(jīng)驗(yàn)教訓(xùn)知識(shí)庫(kù),以及注重PDCA閉環(huán)管理的故障處理思路。雖然故障不可避免,但相信可以避免重蹈覆轍,實(shí)現(xiàn)迭代式的持續(xù)提升的目的

問(wèn)題處理流程:

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論