關(guān)于數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維的一些思考

Vertiv服務(wù)
洪顯文
隨著機(jī)房?jī)?nèi)重要應(yīng)用系統(tǒng)的不斷部署上線,同時(shí)基礎(chǔ)設(shè)施規(guī)模不斷擴(kuò)大,設(shè)備在網(wǎng)運(yùn)行時(shí)間增長(zhǎng),尤其是開始出現(xiàn)一些可能影響生產(chǎn)的故障,運(yùn)維的壓力就突增了。雖然大部分故障事后看是有驚無(wú)險(xiǎn),但毫無(wú)疑問(wèn)需要去分析總結(jié),這時(shí)就發(fā)現(xiàn)運(yùn)維初期的想法太簡(jiǎn)單,存在著較大的潛在風(fēng)險(xiǎn)。

2020年,一場(chǎng)突如其來(lái)的疫情在全球蔓延,國(guó)內(nèi)新基建順勢(shì)全面啟動(dòng),數(shù)據(jù)中心產(chǎn)業(yè)也意外的成為了大熱門。作為數(shù)據(jù)中心從業(yè)者,一方面會(huì)感覺(jué)很自豪,能夠?qū)⒆陨砉ぷ魅谌氲竭@個(gè)偉大的數(shù)字化時(shí)代中,同時(shí)作為一個(gè)基礎(chǔ)設(shè)施的建設(shè)和運(yùn)維者,也深感責(zé)任重大,有如履薄冰的感覺(jué)。本文基于個(gè)人在數(shù)據(jù)中心建設(shè)和運(yùn)維方面的經(jīng)驗(yàn),談?wù)剬?duì)于基礎(chǔ)設(shè)施運(yùn)維的一些理解和思考。本文所講的基礎(chǔ)設(shè)施對(duì)應(yīng)的是數(shù)據(jù)機(jī)房風(fēng)火水電這些傳統(tǒng)的動(dòng)力專業(yè)范疇。

01、運(yùn)維工作的認(rèn)識(shí)

對(duì)于事物的理解都是遵從由表及里由淺入深的,我們?cè)跀?shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維方面也經(jīng)歷了這么一個(gè)階段。六年前我所在的數(shù)據(jù)中心剛投產(chǎn)時(shí),我們的基本想法是設(shè)備運(yùn)行穩(wěn)定,不出故障。那時(shí)候的運(yùn)維工作也相對(duì)比較簡(jiǎn)單,首先安排外包值守做好巡視監(jiān)控,同時(shí)按維護(hù)計(jì)劃做一些運(yùn)維工作,就這么愉快的做起了運(yùn)維。

隨著機(jī)房?jī)?nèi)重要應(yīng)用系統(tǒng)的不斷部署上線,同時(shí)基礎(chǔ)設(shè)施規(guī)模不斷擴(kuò)大,設(shè)備在網(wǎng)運(yùn)行時(shí)間增長(zhǎng),尤其是開始出現(xiàn)一些可能影響生產(chǎn)的故障,運(yùn)維的壓力就突增了。雖然大部分故障事后看是有驚無(wú)險(xiǎn),但毫無(wú)疑問(wèn)需要去分析總結(jié),這時(shí)就發(fā)現(xiàn)運(yùn)維初期的想法太簡(jiǎn)單,存在著較大的潛在風(fēng)險(xiǎn)。

我們不禁要去思考如何有效減少故障,如何避免影響生產(chǎn)的故障的發(fā)生。為保持系統(tǒng)平穩(wěn)運(yùn)行,在數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維工作中我們需要做些什么?又該如何去做呢?

02、運(yùn)維工作的開展

我們開始有意識(shí)的去學(xué)習(xí)國(guó)家相關(guān)標(biāo)準(zhǔn)、行業(yè)相關(guān)規(guī)范、機(jī)房維護(hù)教程及行業(yè)知名公眾號(hào)內(nèi)容,也積極跟廠商和同業(yè)交流取經(jīng)。在《數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)行維護(hù)標(biāo)準(zhǔn)GB/T51314-2018》中,將運(yùn)維工作分為運(yùn)行和維護(hù)兩大部分。在國(guó)標(biāo)基礎(chǔ)上,我們結(jié)合實(shí)際情況和運(yùn)維要求,把運(yùn)維細(xì)分為監(jiān)控值守、巡檢、測(cè)試、保養(yǎng)、演練、培訓(xùn)、維修、整改、優(yōu)化和應(yīng)急處置等類型工作。在這些類別中,監(jiān)控值守、巡檢、測(cè)試、保養(yǎng)、演練和培訓(xùn)是基本維護(hù)工作,通常是按計(jì)劃組織開展的;而維修、整改、應(yīng)急處置及優(yōu)化通常是在系統(tǒng)運(yùn)行到了某種狀況和程度時(shí)才會(huì)采取措施或組織實(shí)施的。下面先對(duì)基本運(yùn)維部分做進(jìn)一步的說(shuō)明。

1.監(jiān)控值守

監(jiān)控值守對(duì)于數(shù)據(jù)中心運(yùn)維而言,是最普遍最基礎(chǔ)的一項(xiàng)工作。通常是有專人輪班,24小時(shí)查看監(jiān)控系統(tǒng)是否有故障報(bào)警,同時(shí)有值班人員每隔幾個(gè)小時(shí)去現(xiàn)場(chǎng)巡視,主要看是否有設(shè)備報(bào)警、部分重點(diǎn)設(shè)備運(yùn)行參數(shù)是否正常、以及環(huán)境方面是否有漏水、異響和異物等異常情況。由于基礎(chǔ)設(shè)施7*24運(yùn)行,值班巡視能夠覆蓋到的是較少的時(shí)間,而且巡視效果還有賴于值班人員的技能水平和責(zé)任意識(shí)。所以監(jiān)控值守的核心在于值班,值班的最主要職責(zé)就是及時(shí)發(fā)現(xiàn)報(bào)警并進(jìn)行現(xiàn)場(chǎng)情況確認(rèn),然后按照?qǐng)?bào)警內(nèi)容及等級(jí)完成上報(bào)并配合開展處置。

2.巡檢

巡檢是計(jì)劃內(nèi)的一項(xiàng)基本維護(hù)工作。巡檢一般由現(xiàn)場(chǎng)工程師或廠家工程師來(lái)完成,相比值班巡視會(huì)更加專業(yè)深入,能夠?qū)υO(shè)備運(yùn)行狀況、運(yùn)行數(shù)據(jù)、參數(shù)配置及告警記錄等進(jìn)行更全面的檢查分析。專業(yè)巡檢的目的是確認(rèn)設(shè)備系統(tǒng)處于良好的運(yùn)行狀態(tài),否則需要識(shí)別出運(yùn)行中存在的風(fēng)險(xiǎn)并發(fā)起相應(yīng)處理工作。

3.測(cè)試

測(cè)試同樣是一項(xiàng)計(jì)劃內(nèi)工作,設(shè)備或系統(tǒng)在當(dāng)前工況下能正常工作,并不能保證在別的工況仍能正常工作。為了保證各設(shè)備系統(tǒng)在不同情況下都能按照預(yù)期邏輯和效果運(yùn)行,需要定期對(duì)電氣、暖通、消防及弱電系統(tǒng)開展各種各樣的測(cè)試工作,做到全面覆蓋。運(yùn)維團(tuán)隊(duì)通過(guò)測(cè)試能及時(shí)發(fā)現(xiàn)系統(tǒng)存在的潛在問(wèn)題,并發(fā)起相應(yīng)的處理工作。

比如,為防止市電停電對(duì)機(jī)房生產(chǎn)造成影響,我們需要做電氣和制冷相關(guān)測(cè)試。在電氣專業(yè),首先要測(cè)試UPS能夠從市電逆變模式正常轉(zhuǎn)到電池供電模式,還要測(cè)試電池放電時(shí)間是否能滿足設(shè)計(jì)或運(yùn)行要求;另外也要測(cè)試備用發(fā)電機(jī)組的自啟動(dòng)功能及帶載能力。在制冷專業(yè),要測(cè)試水冷系統(tǒng)是否具有持續(xù)供冷能力,可以先關(guān)掉全部冷水機(jī)組由蓄冷罐進(jìn)行放冷,再通過(guò)現(xiàn)場(chǎng)和動(dòng)環(huán)監(jiān)控去觀察記錄機(jī)房溫度變化情況。

4.演練

演練是按計(jì)劃針對(duì)各專業(yè)重大故障場(chǎng)景開展的應(yīng)急操作測(cè)試工作,也是一項(xiàng)運(yùn)維團(tuán)隊(duì)綜合能力驗(yàn)證工作。演練時(shí)會(huì)設(shè)置各種故障場(chǎng)景,要求運(yùn)行人員按照預(yù)定流程和預(yù)案開展應(yīng)急處置,一方面能夠檢驗(yàn)設(shè)備系統(tǒng)性能,同時(shí)也是強(qiáng)化運(yùn)行人員對(duì)于應(yīng)急場(chǎng)景的理解和掌握程度。所以,演練的核心目的是讓運(yùn)行維護(hù)人員在遇到某種嚴(yán)重故障時(shí)能夠嚴(yán)格按照預(yù)案從容有序的應(yīng)對(duì)。那么,演練工作中應(yīng)急預(yù)案場(chǎng)景設(shè)置的合理完備及對(duì)應(yīng)處置方案的可靠有效是重要基礎(chǔ)。

比如,我們經(jīng)常會(huì)做市電油機(jī)切換帶載演練,模擬市電出現(xiàn)故障,讓油機(jī)給機(jī)房供電,過(guò)程中間操作人員會(huì)按照預(yù)先擬好的操作票先停一路市電、再停兩路市電,并對(duì)應(yīng)作出恢復(fù)供電的應(yīng)急操作。我們也會(huì)定期開展消防演練,模擬火災(zāi)發(fā)生,檢驗(yàn)消防報(bào)警系統(tǒng)、滅火系統(tǒng)和逃生系統(tǒng)是否能夠正常反應(yīng),同時(shí)檢驗(yàn)消防運(yùn)行人員是否合理應(yīng)對(duì),及其他在場(chǎng)人員是否能夠按照逃生要求快速離開。

5.保養(yǎng)

保養(yǎng)是為了使設(shè)備或系統(tǒng)保持良好狀態(tài)按計(jì)劃開展的一類維護(hù)工作。生活中最常見的是汽車保養(yǎng),汽車需按照行駛里程或時(shí)間去專門服務(wù)機(jī)構(gòu)更換機(jī)油、濾芯等耗材。數(shù)據(jù)中心基礎(chǔ)設(shè)施保養(yǎng)涉及設(shè)備設(shè)施非常多,比如發(fā)電機(jī)組、冷水機(jī)組需要專業(yè)廠商定期更換潤(rùn)滑油和過(guò)濾器等耗材,空調(diào)及新風(fēng)設(shè)備需定期更換過(guò)濾器,水泵和風(fēng)機(jī)等需要定期加注潤(rùn)滑油,水系統(tǒng)里的機(jī)組、冷卻塔和過(guò)濾器等需要定期清理去除水垢等。

6.培訓(xùn)

這里的培訓(xùn)是涵蓋了運(yùn)維技術(shù)學(xué)習(xí)提升、運(yùn)維管理總結(jié)完善和知識(shí)庫(kù)積累傳承?;A(chǔ)設(shè)施運(yùn)維專業(yè)性很強(qiáng),需要通過(guò)持續(xù)的培養(yǎng)和訓(xùn)練使運(yùn)維團(tuán)隊(duì)各崗位人員掌握應(yīng)有的技能,以支持保障風(fēng)火水電各專業(yè)系統(tǒng)穩(wěn)定運(yùn)行。從培訓(xùn)內(nèi)容來(lái)說(shuō),基礎(chǔ)設(shè)施一般分為電氣、制冷、弱電和消防四大專業(yè),每個(gè)專業(yè)里又有各種類型的設(shè)備和設(shè)施,所以要從系統(tǒng)架構(gòu)、設(shè)備功能、操作要求、維護(hù)要點(diǎn)和應(yīng)急處置等各方面去整理完整的培訓(xùn)知識(shí)體系。從培訓(xùn)對(duì)象來(lái)說(shuō),對(duì)于值班員、工程師和高級(jí)工程師需要根據(jù)各崗位職責(zé)要求進(jìn)行有針對(duì)性的培訓(xùn),比如值班員側(cè)重監(jiān)控查看及巡視等基礎(chǔ)性工作、工程師需要具備較強(qiáng)的操作和維護(hù)能力、高級(jí)工程師需要深入理解專業(yè)系統(tǒng)并且從維護(hù)工作中不斷總結(jié)完善運(yùn)維知識(shí)和運(yùn)行管理體系。

在明確了基礎(chǔ)設(shè)施各類維護(hù)工作后,需要將每類工作再一步一步分解細(xì)化,直到形成每個(gè)具體事項(xiàng)的具體執(zhí)行方案和維護(hù)標(biāo)準(zhǔn)。下圖1是對(duì)各類維護(hù)工作做的第一級(jí)分解,再往下需要對(duì)每個(gè)事項(xiàng)形成具體的維護(hù)方案和要求,比如做某種設(shè)備巡檢須明確檢查點(diǎn)和檢查要求、做某項(xiàng)測(cè)試須明確測(cè)試方案和相關(guān)注意事項(xiàng)等。

圖1數(shù)據(jù)中心電氣專業(yè)基礎(chǔ)維護(hù)工作分解實(shí)例

03、運(yùn)維工作之間的關(guān)系

前面對(duì)各類基礎(chǔ)運(yùn)維工作做了一些說(shuō)明,那各項(xiàng)運(yùn)維工作之間有什么樣的關(guān)系呢?我們可以進(jìn)一步分析,找到其內(nèi)在聯(lián)系。

1)監(jiān)控值守能夠及時(shí)發(fā)現(xiàn)監(jiān)控報(bào)警和最明顯的故障,這時(shí)會(huì)啟動(dòng)報(bào)警分析及應(yīng)對(duì)處理,嚴(yán)重故障會(huì)轉(zhuǎn)向應(yīng)急處置以免影響業(yè)務(wù)連續(xù)性;

2)巡檢、測(cè)試和演練能夠發(fā)現(xiàn)設(shè)備老化、參數(shù)偏移、性能下降和功能失效等技術(shù)方面問(wèn)題,會(huì)推進(jìn)局部維修、系統(tǒng)優(yōu)化或者隱患整改工作;

3)各項(xiàng)保養(yǎng)工作能夠使設(shè)備或系統(tǒng)性能得以提升,恢復(fù)到良好的狀態(tài);

4)在監(jiān)控巡視、巡檢、測(cè)試和演練工作中,還能夠發(fā)現(xiàn)人員能力、技術(shù)方案、管理要求和制度流程等方面的問(wèn)題,需要有針對(duì)性去解決完善,并做好總結(jié)宣貫培訓(xùn),做到吃一塹長(zhǎng)一智,筑牢運(yùn)維基礎(chǔ);

5)學(xué)習(xí)和培訓(xùn)是全方位的并要長(zhǎng)期開展的,在技術(shù)能力、流程和制度各方面都需要培訓(xùn)需要規(guī)范,一支技術(shù)能力強(qiáng)且有制度流程保障的團(tuán)隊(duì)才能持續(xù)做好基礎(chǔ)設(shè)施運(yùn)維工作。

總結(jié)下來(lái),我們可以建立下面圖2所示的數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維工作“金字塔”模型。在金字塔底部是監(jiān)控值守、巡檢、測(cè)試、演練和保養(yǎng)這些第三級(jí)的基礎(chǔ)性工作,并且都是計(jì)劃內(nèi)的主動(dòng)維護(hù)工作;在金字塔中間是維修、整改和優(yōu)化這類及時(shí)性要求較高的第二級(jí)臨時(shí)性處置工作;金字塔頂層是即將或已經(jīng)產(chǎn)生了嚴(yán)重影響需要立即處理的第一級(jí)工作;金字塔外全部是培訓(xùn),培訓(xùn)須貫穿于運(yùn)維工作的各個(gè)層級(jí)各個(gè)方面,需要持續(xù)的開展并且不斷更新,培訓(xùn)是全部維護(hù)工作有效落地的基礎(chǔ)保障。

海恩法則指出:每一起嚴(yán)重事故的背后,必然有29起輕微事故和300起未遂先兆以及1000起事故隱患。那么對(duì)于運(yùn)維來(lái)說(shuō),只要充分做好第三級(jí)各項(xiàng)基礎(chǔ)性工作,把所有問(wèn)題和隱患都消滅在萌芽階段,這樣就能明顯降低三級(jí)工作升級(jí)到二級(jí)的概率,而且即使有故障其影響范圍和程度也比較可控;當(dāng)二級(jí)工作較少并得到及時(shí)有效處理的時(shí)候,發(fā)生一級(jí)故障須啟動(dòng)應(yīng)急處置的概率也會(huì)大大降低;因?yàn)槠綍r(shí)運(yùn)維中已經(jīng)做了充分的培訓(xùn)和演練,所以發(fā)生一級(jí)故障時(shí)也會(huì)得到快速穩(wěn)妥的處置,這樣運(yùn)維安全就有了實(shí)實(shí)在在的保障。

圖2數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維工作“金字塔”模型

04、總結(jié)與展望

對(duì)于數(shù)據(jù)中心運(yùn)維來(lái)說(shuō),人員管理及維護(hù)場(chǎng)景是非常復(fù)雜的,運(yùn)維工作量是巨大的,制度化和規(guī)范化是基本保障,而靈活性會(huì)帶來(lái)潛在的風(fēng)險(xiǎn)。對(duì)于基礎(chǔ)設(shè)施運(yùn)維來(lái)說(shuō),首先需要按照公司人員組織架構(gòu)建立一支合適的運(yùn)維團(tuán)隊(duì)。然后,各專業(yè)需要全面梳理系統(tǒng)運(yùn)維需求,并結(jié)合現(xiàn)狀制定詳細(xì)的運(yùn)維計(jì)劃和執(zhí)行標(biāo)準(zhǔn)。在運(yùn)維工作中,嚴(yán)格按照計(jì)劃和標(biāo)準(zhǔn)去操作,并在實(shí)踐中不斷完善作業(yè)計(jì)劃和執(zhí)行要求,這樣團(tuán)隊(duì)運(yùn)維能力和系統(tǒng)運(yùn)維效果會(huì)持續(xù)提升,我們的“金字塔”就會(huì)愈加穩(wěn)固。

展望未來(lái),數(shù)據(jù)中心行業(yè)無(wú)疑會(huì)保持快速發(fā)展。在技術(shù)、人才和資本的助推下,數(shù)據(jù)中心基礎(chǔ)設(shè)施這個(gè)傳統(tǒng)行業(yè)也將會(huì)煥發(fā)出新的蓬勃生機(jī)。

1)建設(shè)規(guī)模上,在建和規(guī)劃的大型和超大型數(shù)據(jù)中心越來(lái)越多。

2)建設(shè)方案上,因交付時(shí)間短、綜合成本低、標(biāo)準(zhǔn)化程度高、分期建設(shè)方便,大型數(shù)據(jù)中心預(yù)制化和模塊化建設(shè)趨勢(shì)越來(lái)越明顯。

3)技術(shù)選型方面,在滿足可靠性標(biāo)準(zhǔn)的前提下,傾向于選擇建設(shè)和運(yùn)營(yíng)成本更低的電氣和制冷技術(shù)方案,選擇更節(jié)能的產(chǎn)品。

4)運(yùn)營(yíng)成本上,從數(shù)據(jù)中心選址開始就希望最大化的利用自然冷源,同時(shí)不斷降低損耗,追求更低的PUE。

5)運(yùn)維手段上,將積極推進(jìn)自動(dòng)化和智能化。人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)和新型傳感器等新技術(shù)在基礎(chǔ)設(shè)施方面已經(jīng)開始并將會(huì)有越來(lái)越多的應(yīng)用。比如,智能巡檢機(jī)器人已經(jīng)開始在數(shù)據(jù)中心替代部分人工巡檢、通過(guò)人臉識(shí)別和算法技術(shù)提升數(shù)據(jù)中心物理環(huán)境安全管控水平、通過(guò)AI技術(shù)實(shí)現(xiàn)制冷系統(tǒng)能效提升、通過(guò)全面的監(jiān)控?cái)?shù)據(jù)分析實(shí)現(xiàn)預(yù)防性維護(hù)及通過(guò)物聯(lián)網(wǎng)和新型傳感器實(shí)現(xiàn)更加智能的監(jiān)控系統(tǒng)等。

從數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維來(lái)看,我們首先要腳踏實(shí)地的做好基礎(chǔ)運(yùn)維工作,將動(dòng)力監(jiān)控、巡檢、測(cè)試、保養(yǎng)、演練和培訓(xùn)等基礎(chǔ)工作落實(shí)到位,同時(shí)也要積極關(guān)注新技術(shù)新趨勢(shì),讓基礎(chǔ)設(shè)施及其維護(hù)體系能夠不斷更新成長(zhǎng),這樣才能打造出一個(gè)持續(xù)健康的有生命力的數(shù)據(jù)中心。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論