數(shù)據(jù)中心運維管理操作標準及流程

數(shù)據(jù)中心基礎設施建設與運營管理
數(shù)據(jù)中心基礎設施建設與運營管理
機房運維團隊應充分了解自己將要管理的場地基礎設施。對于新建機房,應盡早參與機房基礎設施的建設過程,以便將運維階段的需求在規(guī)劃、設計、建造、安裝和調(diào)試等過程中得到充分的考慮;同時為后期做好運維工作打下基礎。

隨著信息技術和網(wǎng)絡的快速發(fā)展,同時也加速了數(shù)據(jù)中心建設的發(fā)展。數(shù)據(jù)中心對于像垂直層級較多的政府單位來說,是信息處理的中心。隨著企業(yè)IT架構的不斷擴展,服務器、存儲設備數(shù)量越來越多,加之云架構的出現(xiàn)和普及,數(shù)據(jù)中心的復雜程度越來越高,運維管理的復雜程度急劇攀升,一個更加穩(wěn)定且高效的數(shù)據(jù)中心可以為政企的管理和發(fā)展提供強大的支持,這就使得數(shù)據(jù)中心的運維管理顯得尤為重要。

下面我們就來聊聊數(shù)據(jù)中心運營管理中有哪些運維操作標準與流程?

1機房運維管理前期準備

1.1管理目標

機房基礎設施運維團隊應與業(yè)主管理層、IT部門、相關業(yè)務部門共同討論確定運維管理目標。制定目標時,應綜合考慮機房所支持的應用的可用性要求、機房基礎設施設施的等級、容量等因素。目標宜包括可用性目標、能效目標、可以用服務等級協(xié)議(SLA)的形式呈現(xiàn)。不同應用的可用性目標的機房,可設定不同等級的機房基礎設施的運維管理目標。

1.2參與數(shù)據(jù)中心建設過程

機房運維團隊應充分了解自己將要管理的場地基礎設施。對于新建機房,應盡早參與機房基礎設施的建設過程,以便將運維階段的需求在規(guī)劃、設計、建造、安裝和調(diào)試等過程中得到充分的考慮;同時為后期做好運維工作打下基礎。

1.2.1應參與規(guī)劃設計

機房的規(guī)劃設計是一個謹慎和嚴謹?shù)倪^程,需要所有參與機房建設的相關方共同完成,才能確保規(guī)劃和設計的有效性、實用性等要求。其中,基礎設施運維團隊應提出運維要求,從運維經(jīng)驗、實際運維難度、提高運維可易性等方面對規(guī)劃和設計過程進行配合。

1.2.2應參與相關供應商遴選

機房基礎設施運維團隊應參與機房基礎設施設備供應商選擇的全過程,及時地了解各種產(chǎn)品及服務的品牌、型號、規(guī)格等關鍵參數(shù),使之更能滿足運維的要求。并就在安裝、調(diào)試過程中的注意事項等提出建議,還需要對后續(xù)的設備保修等服務提出要求。

1.2.3應參與建造管理

機房的基礎設施運維團隊應積極參與機房基礎設施的建造工作,并協(xié)助做好建設項目的項目管理工作,著重關注工程建造中如材料的使用、工序、建造過程等工作,重點關注隱蔽工程的安裝工藝和質(zhì)量。機房基礎設施運維團隊應充分了解施工過程中的工藝。對于新建數(shù)據(jù)中心,從施工質(zhì)量和日后運維方便性出發(fā),盡早發(fā)現(xiàn)施工過程的問題,及時糾正,方便日后運維和節(jié)省日后整改成本。

1.3測試驗證

機房基礎設施投產(chǎn)前的測試驗證是確保機房基礎設施滿足設計要求和運行要求的關鍵環(huán)節(jié)。

1.3.1時間和預算

機房的業(yè)主應設立測試驗證專項預算,預算應包括外部測試驗證服務提供商的相關費用,以及在測試驗證階段產(chǎn)生的電費、水費、油費等相關費用。應制定測試驗證的工期規(guī)劃,以更準確地預測機房基礎設施交付投產(chǎn)的日期。

1.3.2測試驗證參與方

項目建設管理部門可作為測試驗證工作的主體責任單位;運維管理部門可作為測試驗證工作的主體審核單位;第三方測試服務商可作為測試驗證的實施單位及整體組織工作的協(xié)調(diào)單位。但運維管理部門應要求測試服務商預先提供測試方案,在運維管理部門審核后方可進行。機房基礎設施運維團隊可參與測試驗證工作,在此過程中熟悉設施和設備,可建立相關運維技術文檔庫,為后期的運維工作做好準備。

機房關鍵設備提供商及工程總包商,應積極配合測試驗證工作,應在供應商合同中對此項有明確要求。

1.3.3測試驗證內(nèi)容

驗證應覆蓋所有關鍵子系統(tǒng)和設備應具備的功能和關鍵的操作程序,確保滿足設計要求,必要時可做故障情景模擬來檢驗。

測試驗證中發(fā)現(xiàn)設計或者建設階段的問題,應該在報告中充分體現(xiàn);可以改造的部分,應要求建設單位進行改造;不能改造或暫時不需改造部分,應作為風險點在運維過程中予以特別的重視,并制定相關預案。

1.3.4設施健康評估

當接手已在運行的機房基礎設施的運維工作前,運維團隊應對設施的情況進行健康評估,了解潛在風險點,其中能夠改造的部分,應該申請予以優(yōu)化改造。不能改造的部分,應該作為風險點在運維中予以特別的重視,并制定相關預案。

1.4技術文檔

完整并準確的技術文檔是后期運行、維護、維修、故障診斷、優(yōu)化改造的基礎。運維團隊在開展運維工作前,應從施工單位得到場地基礎設施的全套相關文檔,包括但不限于:機房的規(guī)劃設計資料及竣工圖紙、全套設備的清單及相關操作文檔和保修保養(yǎng)資料、機房自動操作系統(tǒng)的邏輯圖及說明文檔、監(jiān)控系統(tǒng)的點表、驗收測試文檔、機房所在建筑的建筑設計資料、竣工圖紙。

整體文檔應在限定時限內(nèi)進入運維管理知識庫,并按照質(zhì)量管理的原理和要求設定文檔的起草、變更、審核、批準、保存、分發(fā)等職責權限。

1.5管理邊界

為了明確管理責任,機房基礎設施運維團隊應將可能影響機房基礎設施運維目標達成的外界因素整合成管理邊界報告,提交業(yè)主管理層并組織研討,形成明確的決策,制定完整的協(xié)調(diào)溝通機制及權責界限。這些因素包括但不限于:不歸本部門負責,但可能對于本部門有重大影響的供電、供水、供暖、制冷、消防、安防、監(jiān)控、運營商線路接入等系統(tǒng)。

2安全管理和質(zhì)量管理建議

2.1人員安全

機房基礎設施運維團隊要編制正式的機房生產(chǎn)環(huán)境(工作場所)的安全方針,設定嚴格的安全生產(chǎn)規(guī)范;并根據(jù)安全方針制定有效的、明確的安全計劃,來教授和培訓安全原則、危險識別、糾正缺陷和控制風險。并加強對于該部分規(guī)范的合規(guī)度的培訓、考試和審核檢查,以確保機房運維人員的人身安全。

●相關安全生產(chǎn)規(guī)范主要包括:

●機房生產(chǎn)環(huán)境安全管理規(guī)范;

●機房基礎設施各系統(tǒng)安全管理手冊;

●機房基礎設施涉及安全的應急預案;

●機房基礎設施管理過程涉及的技術方案中的安全管理策略。

機房基礎設施中與電氣相關的工作存在著固有危險。設施運維團隊應當創(chuàng)建一份正式電氣安全計劃,以最小化所有工作人員受到電氣傷害的風險,確?,F(xiàn)場電氣系統(tǒng)達到相關法規(guī)標準。電氣安全計劃中的條款應規(guī)定電氣工作人員在有資質(zhì)和具備合理安全工作流程的前提下才能進行操作,并應利用防護設備和其他控制手段,如上鎖掛牌設備。此計劃的創(chuàng)建旨在防止員工受到電擊、燒傷、電弧和其他潛在電氣安全隱患,同時要求其遵守法規(guī)標準。

相關國家、行業(yè)規(guī)程包括但不限于:

GB 26860電力安全工作規(guī)程發(fā)電廠和變電站電氣部分;

DL 408電業(yè)安全工作規(guī)程。

2.2物理環(huán)境安全

應了解周邊社會環(huán)境信息,評估潛在的安全風險并制定預案。這些信息宜包含但不限于:周邊交通路況、醫(yī)院、供油站、消防站、變電站、供水、供電、供氣、網(wǎng)絡通信線路等。可建立周邊社會環(huán)境管理資料庫。

應了解機房所在地的歷史自然災害情況。包含但不限于GB50174及TIA-942中提到的所有評估機房選址的外部因素,并制定相應的管理預案。

應建立并執(zhí)行嚴格的機房設備、人員、車輛進出管理制度。

應設立不同安全區(qū)等級(參考ISO27001信息安全管理中的物理安全控制)并制定訪客管理制度,用以有效管理訪客。

2.3質(zhì)量管理

在機房基礎設施運維過程中建立完善的質(zhì)量管理體系,是保障以上機房基礎設施運維趨于卓越的重要因素和手段。機房基礎設施運維團隊的所有關鍵工作應包括以下的質(zhì)量管理要素:

2.3.1質(zhì)量保證

過程制定;

程序制定;

過程審核和批準;

過程和程序培訓。

2.3.2質(zhì)量控制

事件回顧;

質(zhì)量檢查和檢驗;

定期質(zhì)量審核。

2.3.3質(zhì)量改進

故障分析;

經(jīng)驗教訓;

優(yōu)化及創(chuàng)新計劃。

3人員管理建議

3.1組織及人員

3.1.1組織架構

機房運維團隊應有清晰的組織架構,同時對各崗位有明確的崗位職責說明并在計算機化維護管理系統(tǒng)(CMMS)中實現(xiàn)權責匹配,同步更新。中大型數(shù)據(jù)中心場地基礎設施運維團隊中除現(xiàn)場負責人外,可按照工作內(nèi)容分設以下幾個主要職能崗位:

運維巡檢團隊

主要職責:對基礎設備設施進行巡檢,擔任值班工作,第一時間發(fā)現(xiàn)故障或問題,并作為管理程序的執(zhí)行者。

技術管理團隊

主要職責:對機房基礎設施提供運維技術支持,解決技術問題,承擔機房基礎設施一般性的優(yōu)化改造工程的項目管理工作,宜包括電氣、空調(diào)、弱電等系統(tǒng)的技術人員。

物理環(huán)境安全管理團隊

主要職責:對物理環(huán)境安全進行管理,進行安全巡檢等工作。

3.1.2人員配制

機房基礎設施運維人員的配備應根據(jù)運維管理目標或SLA來確定。中高等級的機房,可按照7X24的運行要求配置運維人員。上崗人員應具備國家要求的相應資格證書。應在運維管理程序中明確規(guī)定資質(zhì)等級與操作權限的一致性。

高等級以及具有一定規(guī)模的機房,每個班組應配備具有電力、暖通、弱電專業(yè)能力的運維人員,以達到“即時應急響應”的工作狀態(tài)。等級相對低的機房,每個班需要至少配備一人,達到“即時報警”的工作狀態(tài)。

運維團隊的關鍵崗位應有人員備份和儲備。

機房基礎設施運維管理團隊的關鍵管理人員或關鍵崗位人員在正常運維工作開展中應采用A、B角色配置,日常工作中應注意角色的分配和工作的配合。其它崗位人員宜建立良好的循環(huán)機制,人員可進行崗位輪換和交叉培訓,使所有人員掌握全面的基礎知識。

3.1.3績效管理

為了提高機房運維人員的技術技能、職業(yè)素養(yǎng)和提倡團隊合作精神,專業(yè)地、高效率地運行和維護機房基礎設施,有必要建立人員的關鍵績效指標,定期對所有人員的短期和長期績效進行評估,獎優(yōu)罰劣,推動整個運維團隊技術和素質(zhì)的發(fā)展和改進。

3.1.4人員管理制度

為了保障機房基礎設施運維團隊的創(chuàng)新性、穩(wěn)定性、持續(xù)性,應通過建立合理的人員管理制度,約束人員的工作態(tài)度、行為規(guī)范,提高人員的工作熱情、工作效率和執(zhí)行力,激發(fā)人員正面影響,使團隊一直保有活力來共同努力達成服務等級協(xié)議的要求,運維團隊應該建立運維人員的各項管理制度。這些管理制度應該主要包含(但不限于):

●《日常活動管理制度》;

●《人員安全操作制度》;

●《運維人員基本素質(zhì)養(yǎng)成管理制度》;

●《安全運行獎懲制度》;

●《節(jié)能運行獎懲制度》;

●《技術創(chuàng)新獎勵制度》;

●《人員晉升制度》;

●《人才儲備制度》;

3.2培訓及認證

3.2.1員工培訓及資格認證計劃

對于機房基礎設施運維團隊新員工應進行完整及嚴格的培訓,以確保其盡快具備崗位需要之知識及能力。培訓內(nèi)容應包括機房基礎設施的所有系統(tǒng)的工作原理、操作流程、應急預案、以及管理制度等。

對于所有運維人員宜設定以知識更新、技能提高為目標的年度培訓及認證計劃。宜要求運維人員不斷提升理論知識,以便于在缺乏操作程序的應急狀態(tài)下進行正確的處置。

可借助行業(yè)第三方專業(yè)培訓及職業(yè)技能鑒定平臺,積極開展運維人員任職資格的評定工作。

3.2.2歷史事件分析學習

運維團隊應將機房基礎設施歷史事件的總結(jié)分析作為培訓的重要素材,進行全員培訓;對于新員工應在上崗前予以培訓,以避免相同的事件再次發(fā)生。

3.2.3組織學習

運維團隊管理者應積極參與行業(yè)交流,了解行業(yè)最佳的運維管理實踐,并從行業(yè)故障案例中總結(jié)經(jīng)驗,做好自身整改。

3.3運維外包服務商

3.3.1基礎設施運維外包服務商的選擇

機房基礎設施屬于關鍵性設施,選擇外包運維團隊時應考察其機房基礎設施的運維服務的資質(zhì)、能力和經(jīng)驗。如機房作為商業(yè)物業(yè)的一部分整體外包運維,應要求外包運維機構針對機房基礎設施設施部分設立專門的有機房基礎設施運維經(jīng)驗的團隊,并嚴格按機房基礎設施的運維規(guī)程規(guī)范執(zhí)行。

3.3.2運維外包服務商的管理

對于外包服務商的員工的管理原則應該參照運維團隊內(nèi)部員工同等要求,相關人員只有在進行培訓并得到相關的認證后才能從事相關的工作。

外包服務商需要嚴格遵循數(shù)機房基礎設施既定的操作流程和安全守則。

機房基礎設施運維管理的最終責任承擔者是機房管理者,責任無法外包。因此,機房應保留運維核心管理人員,對于外包團隊的工作進行審核、監(jiān)督和績效評估管理。

4設施管理建議

4.1資產(chǎn)數(shù)據(jù)庫

數(shù)據(jù)中心應建立完整及實時更新的資產(chǎn)數(shù)據(jù)庫。數(shù)據(jù)庫應包括所有關鍵基礎設施設備的清單,還應記錄設備設施的運行情況、事件情況、變更情況、維護保養(yǎng)頻次等信息。

資產(chǎn)數(shù)據(jù)庫應最少包括以下信息:

●資產(chǎn)ID:每個資產(chǎn)的唯一標識號

●種類:一級分類(如電氣、制冷、消防系統(tǒng))

●子類:二級分類(如UPS、電池、PDU等)

●描述:資產(chǎn)的文字說明

●制造:資產(chǎn)的制造廠家

●型號:制造廠家的產(chǎn)品型號

●規(guī)格:資產(chǎn)的規(guī)格或者標稱值

●位置:位置ID(房間或區(qū)域)

●購買人:資產(chǎn)維護的負責人

●序列號:制造廠家的序列號

●安裝日期:資產(chǎn)的投產(chǎn)日期

●保修期限:保修到期的日期

●更換:預計的資產(chǎn)更換日期

●維護頻次:年檢、季檢、月檢等

4.2預防性維護

4.2.1預防性維護計劃

預防性維護是為了延長設備的使用壽命和減少設備故障的概率而進行的有計劃的維護。其目的是通過定期檢查和保養(yǎng),使設備的某些缺陷或隱患在變得更嚴重之前被發(fā)現(xiàn)。

運維團隊應根據(jù)系統(tǒng)設備情況與供應商進行溝通,按照供應商的建議提前制定年度、季度、月度預防性維護計劃。各專業(yè)運維人員需按照各設備系統(tǒng)特性、維護流程及規(guī)范,及時、完整地落實維護工作,并形成客觀實際的記錄和報告予以存檔。運維團隊還應定期對設備的運行狀態(tài)數(shù)據(jù)進行統(tǒng)計和趨勢量化分析,對于異常的趨勢,做出報警及相關預案。

預防性維護包括并不限于以下系統(tǒng)設備或內(nèi)容:

●冷水機組、精密空調(diào);

●UPS,開關、和發(fā)電機組;

●消防系統(tǒng)和監(jiān)控系統(tǒng)檢驗;

●蓄電池放電測試;

●配電裝置(高低壓配電裝置)的絕緣性定期試驗;

二次保護定值實驗;

每年雨季之前進行的數(shù)據(jù)中心防雷接地裝置測試等。

4.2.2工單管理

運維團隊應建立預防性維護及保養(yǎng)的工單管理系統(tǒng),工單應列出工作內(nèi)容、完成相應工作需要的工具及備件、工作預計完成的時間、工作負責人等信息。

計算機化維護管理系統(tǒng)應該對每份工單從產(chǎn)生到完成進行全程的跟蹤。

4.3操作流程

機房基礎設施的所有操作,均應事先制定詳細的操作流程,經(jīng)過審核后存檔并在后期運行階段嚴格執(zhí)行。

4.3.1維護作業(yè)程序MOP

對機房關鍵基礎設施設備的每次維護、維修、安裝操作,都應事先制定一份MOP??梢笤O備供應商提供MOP的建議,但對于MOP最終確認審核的責任在于運維團隊,批準責任在于運維管理團隊。

4.3.2標準操作流程SOP

所有關鍵基礎設施設備在各種情況下都能執(zhí)行的常用操作都應制定標準操作流程SOP。例如手動啟動發(fā)電機組的操作流程,或?qū)PS轉(zhuǎn)換到旁路的操作流程等。

4.3.3應急操作流程EOP

應急操作流程適用于有可能發(fā)生的嚴重故障情況。以下為部分嚴重故障的例子:

●一路市電供電時中斷;

●雙路市電供電時同時中斷;

●單個精密空調(diào)時故障停機;

●全部精密空調(diào)都故障停機;

●單臺UPS時故障停機。

4.4工具及備件管理

運維團隊應根據(jù)資產(chǎn)分類清單及其分類制定最低備件庫存清單并及時補充備件。

測試分析儀器儀表方面可配備進行電氣性能參數(shù)測試、電池測試、接地電阻測試、絕緣性能測試、設備運行溫度測試、風速測試、環(huán)境溫度測試、噪音測試等的儀器儀表。儀器儀表應該定期校準。

應制定相關規(guī)定對操作工具、儀器儀表實行人員負責制或者交接班負責制等管理制度。備件和工具應定期進行盤點。

4.5供應商管理

應該按照機房基礎設施運維的資質(zhì)、以往的經(jīng)驗、業(yè)界的口碑等因素,以注重預防性和預測性維護和提高可用性的相同標準來選擇合格的供應商。

所有供應商到達機房執(zhí)行維護程序之前,應通過機房相關規(guī)程的培訓,獲得機房運維團隊和運維管理層的批準。在執(zhí)行維護活動的過程中要嚴格遵循操作流程。操作時需由運維團隊的人員陪同并監(jiān)督記錄流程的執(zhí)行情況。

供應商的每次機房維護活動都應該提交現(xiàn)場服務報告并存檔。

運維團隊應該建立供應商的績效評估方案,并定期對供應商進行績效評估。應設立供應商管理文檔,記錄所有供應商的聯(lián)系方式、服務承諾(SLA)、工作范圍、針對設施的培訓和認證情況等信息。

4.6生命周期管理

應基于設施設備的合理生命周期,結(jié)合風險評估,制定設備維護、升級或更換的計劃及預算,及時報告給運維管理部門。

●風險評估主要評估內(nèi)容包括:

●資產(chǎn)重要性識別;

●資產(chǎn)威脅識別;

●資產(chǎn)脆弱性識別;

●風險值的計算;

在評估更換設備的方案時,可綜合考慮原有設備的維護費用以及新設備在能效方面的改進,做好綜合投資回報分析;

對于冗余設備宜設立輪換運行機制,以延長整體設備的生命周期。

4.7運維管理系統(tǒng)

機房可建立自動化維護管理系統(tǒng)(MMS),集中實現(xiàn)資產(chǎn)管理、維護調(diào)度、信息安全、文檔管理、工單管理的職能并記錄所有的運維工作任務及完成情況。

5運行管理建議

5.1運行管理制度

●機房基礎設施運維團隊應建立并嚴格執(zhí)行運行管理制度,包括:5.1.1巡檢相關管理制度

●日常巡視巡檢管理制度;

●值班管理制度;

●交接班管理制度;

●通知矩陣。

5.1.2工作流程相關管理制度

●工單處理流程;

●例會制度;

●工作總結(jié)報告制度(日、周、月、季、年總結(jié)報告);

●交付管理規(guī)范;

●運維質(zhì)量管理辦法文檔管理制度;

●工具備件管理制度。

5.1.3安全相關管理制度

●機房出入管理制度;

●機房現(xiàn)場管理制度;

●機房衛(wèi)生管理制度;

●信息安全相關管理制度。

5.1.4故障處理管理制度

●設備操作管理制度;

●設備故障處理流程;

●應急準備和應急響應流程;

●維護作業(yè)計劃管理制度;

●故障隱患跟蹤反饋管理制度;

●緊急事件匯報流程。

5.1.5經(jīng)營相關管理制度

●員工行為規(guī)范;

●考勤管理制度;

●人員管理考核制度。

5.2設施監(jiān)控、巡檢、及交接班管理

應配備環(huán)境、動力、安防等監(jiān)控系統(tǒng)以便于運維人員及時了解設施各系統(tǒng)及設備的運行狀態(tài)和及時發(fā)現(xiàn)異常情況。

應規(guī)定相應的運行人員對設施運行狀態(tài)的巡視頻次、巡視工作內(nèi)容及規(guī)范。

運行人員交接班時應對當班執(zhí)行的操作、變更及觀察到的任何異常數(shù)據(jù)或現(xiàn)象進行交接和簽收。

5.3機房清潔管理

應劃定保潔區(qū)域,定期做好機房保潔工作,保證地板及地板下的無塵狀態(tài)。重要區(qū)域進行保潔工作時應有運維人員現(xiàn)場監(jiān)督和指導。

5.4標簽標識管理

應建立針對數(shù)據(jù)中心場地基礎設施設備和物理環(huán)境完整的、清晰的標簽標識管理系統(tǒng)。應至少包括:

設備標識:包括設備名稱、型號、編號、資產(chǎn)編號等;

線纜標識:包括起始端信息、終止端信息、設備名稱等;

警示標識:如“設備已帶電/危險”、“禁止合閘”、“禁止分閘”等;

物理環(huán)境標識:如位置標識、區(qū)域標識等;

系統(tǒng)圖展板標識:如電氣、暖通、消防、弱電系統(tǒng)圖展板。這類標識便于運維人員清晰、快捷地掌握區(qū)域及整個數(shù)據(jù)中心系統(tǒng)的配電、制冷、消防、弱電的原理及關鍵點位。

5.5變更管理

任何對于設施運行狀態(tài)的變更應進行預先的風險分析,并基于風險等級,設定相應級別的事前審核流程。在變更方案及變更時間窗口確認后,應進行相應范圍的告知。變更結(jié)束后,應向相應范圍部門通報變更結(jié)果。

5.6事件管理

應制定事件管理流程,明確不同等級事件下相應的處理流程。

5.6.1事件等級定義

一般事件:任何沒有達到機房設計和運行標準的異常事件;

嚴重事件:任何沒有達到機房設計、運行標準的事件,且對提供的服務造成中斷的事件;

重大事件:任何沒有達到機房設計、運行標準的事件,且對提供的服務造成中斷,且影響范圍大的事件。

5.6.2事件升級

當事件暫時無法排除,需要逐級報告,進入事件升級流程。

如遇特殊情況,與直接主管聯(lián)系不上時,可越級向上一級主管報告。

5.7應急響應

5.7.1設施應急預案演練

運維團隊應針對應急操作流程EOP進行定期的演練工作,主要包括:

沙盤演練:參與演練的運維人員集合,并分別口述在發(fā)生緊急情況下自身所應承擔的職責及將會執(zhí)行的方案及步驟;

跑位演練:參與演練的人員跑位到模擬故障現(xiàn)場,模擬處理故障,參與人員應清晰地說出故障的處理方案及步驟。

應急演練的演練原則是:盡量接近真實情況,在條件允許的情況下盡量真實地處理故障。在運行中的一些特定場景下也可以進行應急演練,如發(fā)電機帶載實驗等。

5.7.2人員安全應急流程

機房基礎設施運維團隊應針對影響運維人員健康的人身事故制定應急流程并定期演練。應急流程可包括設置現(xiàn)場急救包以及聯(lián)系當?shù)蒯t(yī)療急救機構的方式等。

5.8容量管理

容量管理可包括但不限于以下方面:

5.8.1空間容量

●IT設備擺放空間;

●基礎設備設施擺放空間;

●綜合布線線路空間,配線架管理。

5.8.2能力容量

●電力供應容量;

●空調(diào)供應容量;

●綜合布線信息點容量;

●互聯(lián)網(wǎng)接入容量。

設施運維團隊應與IT部門定期溝通,動態(tài)了解IT需求的預測,并通報設施容量的使用情況??芍贫?個月至36個月周期的IT需求及設施可用容量兩者的對比分析表。

當機房基礎設施不能滿足IT增長的需求時,應提前制定并上報擴容或者新建機房的計劃。

5.9能效管理

5.9.1能效監(jiān)測

機房基礎設施運維團隊應了解并記錄機房在不同工況及不同外界氣候條件下的電力使用效率PUE的變化情況,從中發(fā)現(xiàn)趨勢,以不斷優(yōu)化運行方案。

5.9.2了解IT設備運行特征

機房基礎設施運維人員應具備一定的IT設備相關知識,了解服務器、網(wǎng)絡、存儲等設備的運行特點和功耗情況。還應了解客戶或用戶的業(yè)務基本情況,了解IT設備的運行峰谷期。

應與客戶或用戶相關部門做好溝通,針對高密度IT負載的部署做出預測,并制定相關應對方案。

5.9.3管理氣流組織

應封堵設施建筑所有可能的漏風口,維持設施的正壓。

應疏導設施內(nèi)氣流的流向、封堵所有可能的漏風口、對機柜內(nèi)所有空閑U位安裝盲板、關閉不必要的出風口、保證冷空氣的最佳使用效率。

5.9.4運行閾值設定

應基于安全性及運行效率的綜合考慮,建立運行閾值設定指南,設置監(jiān)控報警閾值、空調(diào)回風溫度等。

5.10預算管理

運維團隊應做好運維財務預算,上報主管領導及財務部門,并做好預算必要性的溝通解釋工作。

預算應包括但不限于以下內(nèi)容:

基于SLA的人力預算;

備件及工具、儀器采購費用;

應急維護材料費用;

●專業(yè)外包維保和應急服務費用;

●政策性等強制檢測服務費用;

●整改或節(jié)能改造預算;

●突發(fā)問題備用金。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論