IT運維的風(fēng)險在哪里?

童俊
理解IT服務(wù)各類風(fēng)險之間的關(guān)系有助于構(gòu)建IT服務(wù)體系時避免上游的風(fēng)險、消除下游的風(fēng)險,在源頭上解決潛在的問題,集中精力預(yù)防而不是醫(yī)治??傮w說來,各類IT服務(wù)風(fēng)險是相互依賴和影響并相互作用的。

做企業(yè)經(jīng)營,有風(fēng)險;為企業(yè)進行IT服務(wù)同樣有風(fēng)險。只有正確認別了IT服務(wù)的風(fēng)險和運維服務(wù)管理的成功關(guān)鍵因素,才能有效的提升IT服務(wù)的質(zhì)量。本文運用因果圖法,以IT運維服務(wù)事件處置案例為例,為企業(yè)分析IT服務(wù)存在的風(fēng)險。

事件案例:

1、事件:某企業(yè)IT部門負責(zé)該企業(yè)信息機房的維護,負責(zé)提供IT運維服務(wù)。在2021年3月26日的一次例行設(shè)備巡查時發(fā)現(xiàn),機房環(huán)控系統(tǒng)報警,信息機房內(nèi)溫度已達30.2℃,超過標準溫度。

360截圖16450626515344.png

經(jīng)檢查發(fā)現(xiàn),機房內(nèi)的兩臺精密空調(diào)(負責(zé)保持機房在恒溫恒濕狀態(tài))均處于宕機狀態(tài),無法進行制冷,因此機房溫度正在持續(xù)上升。

機房溫濕度標準如下圖:

360截圖16450626515344.png

2、事件處置:

(1)緊急聯(lián)系精密空調(diào)廠維修服務(wù)商對停機空調(diào)進行檢查和維修;

(2)打開信息機房的新風(fēng)系統(tǒng),將室外的冷空氣抽送到機房內(nèi),進行通風(fēng)、降溫處理;

(3)上報主管領(lǐng)導(dǎo),作為緊急事件進行匯報;

(4)記錄事件并根據(jù)制定應(yīng)急處置方案進行處理:根據(jù)應(yīng)急處置方案,由于當(dāng)時室外溫度最高為20℃,如果保持新風(fēng)系統(tǒng)的運作,應(yīng)能保持機房室內(nèi)溫度不超過28℃;并將日常巡查由每兩天一次改為一天三次,密切監(jiān)控機房內(nèi)的溫度。一旦機房溫度再次超過30℃,將事件升級到嚴重程度,發(fā)布緊急維護通知,關(guān)停機房內(nèi)的服務(wù)設(shè)備,保證機房溫度在標準范圍以內(nèi),以確保服務(wù)設(shè)備的使用狀態(tài)正常。

經(jīng)過4天的搶修,已有一臺精密空調(diào)能正常進行制冷、除濕工作,另一臺因問題較多,還在檢查中。本次事件暫未對該企業(yè)的日常網(wǎng)絡(luò)服務(wù)造成影響。

3、問題分析

事后,對該事件進行復(fù)盤,發(fā)現(xiàn)存在以下問題:

(1)由于沒有簽訂精密空調(diào)的維保協(xié)議,無維保廠商定期對機房的精密空調(diào)進行檢查,無法提前發(fā)現(xiàn)和排除精密空調(diào)長期運行所積累下的隱患。

(2)檢查精密空調(diào)的報警日志發(fā)現(xiàn)3月24日精密空調(diào)已經(jīng)發(fā)生故障,壓縮機高壓報警并宕機,3月25日上午機房內(nèi)的溫度已經(jīng)超過警戒值。機房的環(huán)控系統(tǒng)沒有手機APP消息推送或短信報警功能,只能靠運維人員每兩天一次的人工巡查來發(fā)現(xiàn)問題。說明A、發(fā)現(xiàn)問題的技術(shù)太落后,需要更新機房環(huán)控系統(tǒng),采用更加及時的預(yù)警技術(shù),B、運維人員的日常巡查制度并沒有執(zhí)行到位。

360截圖16450626515344.png

360截圖16450626515344.png

(3)該精密空調(diào)因長期使用無專人檢查維護,曾于2018年7月因冷卻管堵塞造成宕機。由于當(dāng)時正處于酷暑,室外溫度高達39℃,無法采取新風(fēng)系統(tǒng)通風(fēng)降溫的處置方法,只能停機降溫,造成該企業(yè)正常的網(wǎng)絡(luò)服務(wù)中斷長達48小時,為特別重大突發(fā)事件(I級)。經(jīng)維修恢復(fù)正常工作后,依舊未簽訂定期維保協(xié)議。

突發(fā)事件等級劃分標準如下圖:

360截圖16450626515344.png

一、IT服務(wù)的風(fēng)險分析

從上面的案例可以看出IT服務(wù)的風(fēng)險通常包括人員(管理人員、運維人員的能力和素質(zhì))、技術(shù)(發(fā)現(xiàn)問題、解決問題的技術(shù))、資源(備件庫、服務(wù)工具的完備)、過程(管理制度的制定和執(zhí)行管理)等方面。運用因果圖分析原因如下:

360截圖16450626515344.png

通過對因果圖分析結(jié)果的歸納匯總可以得到以下IT服務(wù)風(fēng)險:

1.IT服務(wù)的管理風(fēng)險:缺乏服務(wù)管理體系,造成服務(wù)管理困難,難以維護和難以完成預(yù)定的IT服務(wù)管理任務(wù)。

2.IT服務(wù)的價值鏈風(fēng)險:一方面,組織需要依賴供應(yīng)商提供的軟硬件等支撐IT業(yè)務(wù);另一方面,組織業(yè)務(wù)的開展也是與具體的客戶相關(guān)的。如果此價值鏈發(fā)生斷裂,供應(yīng)商不能及時交付高質(zhì)量的服務(wù)或不能向客戶提供高質(zhì)量的服務(wù),則整個IT服務(wù)的效用將會受到影響。

3.IT服務(wù)的過程風(fēng)險:組織不能有效管理IT服務(wù)的各過程,不能很好地計劃、執(zhí)行,并對執(zhí)行結(jié)果進行監(jiān)督和改進,這將導(dǎo)致IT服務(wù)計劃失效、交付失敗、無法提供更高質(zhì)量的服務(wù),從而對組織的1T服務(wù)造成巨大影響。

4.IT服務(wù)的業(yè)務(wù)風(fēng)險:組織不能有效管控IT服務(wù)運作的各種日常業(yè)務(wù)活動,導(dǎo)致IT服務(wù)運作的中斷或服務(wù)質(zhì)量的降低,進而造成組織IT服務(wù)水平的降低,最終影響客戶滿意度。

二、各類IT服務(wù)風(fēng)險之間的關(guān)系

理解IT服務(wù)各類風(fēng)險之間的關(guān)系有助于構(gòu)建IT服務(wù)體系時避免上游的風(fēng)險、消除下游的風(fēng)險,在源頭上解決潛在的問題,集中精力預(yù)防而不是醫(yī)治??傮w說來,各類IT服務(wù)風(fēng)險是相互依賴和影響并相互作用的。

1.對IT服務(wù)管理風(fēng)險的處置不當(dāng)會導(dǎo)致管理層難以掌控服務(wù)過程、有效執(zhí)行處理業(yè)務(wù)和識別價值鏈的各環(huán)節(jié)。

2.對IT服務(wù)價值鏈風(fēng)險的管理不當(dāng)會導(dǎo)致難以區(qū)分組織的關(guān)鍵業(yè)務(wù)與一般業(yè)務(wù),難以使有限的組織資源發(fā)揮最大的價值。

3.IT服務(wù)過程風(fēng)險管理的缺失將導(dǎo)致難以識別完整的服務(wù)價值鏈,對業(yè)務(wù)流程的有效實施造成影響。

4.對IT服務(wù)業(yè)務(wù)風(fēng)險的處置不當(dāng)會導(dǎo)致價值鏈的斷裂和管理層對IT服務(wù)業(yè)務(wù)資源提供判斷的失控。

【結(jié)束語】IT服務(wù)的風(fēng)險會極大的影響影響IT服務(wù)成本和服務(wù)質(zhì)量。所以有效識別IT服務(wù)風(fēng)險和進行風(fēng)險管理是IT服務(wù)管理中重要的工作環(huán)節(jié),而且是一項長期工作。對IT服務(wù)風(fēng)險的識別方法也可以類推到企業(yè)其他經(jīng)營活動的風(fēng)險識別上去,有很大的借鑒意義。

【參考資料】:清華大學(xué)出版社-全國計算機專業(yè)技術(shù)資料考試辦公室-《系統(tǒng)規(guī)劃與管理師教程》

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論