云平臺(tái)下存儲(chǔ)運(yùn)維的變革與實(shí)踐

白東旭、王向虎
隨著銀行數(shù)字化轉(zhuǎn)型升級(jí)進(jìn)程的加快,IT系統(tǒng)架構(gòu)越來(lái)越復(fù)雜,軟件更新迭代越來(lái)越快。銀行信息化建設(shè)中的大量業(yè)務(wù)和數(shù)據(jù)需要依靠信息系統(tǒng)來(lái)完成,這使得構(gòu)建穩(wěn)定可用的IT系統(tǒng)成為業(yè)務(wù)發(fā)展的基礎(chǔ)條件,而IT運(yùn)維管理也隨之成為銀行信息化建設(shè)的重要環(huán)節(jié)。

本文來(lái)自微信公眾號(hào)“twt企業(yè)IT社區(qū)”,作者/白東旭、王向虎,民生銀行科技部工程師。

現(xiàn)有運(yùn)維體系的建設(shè)現(xiàn)狀

隨著銀行數(shù)字化轉(zhuǎn)型升級(jí)進(jìn)程的加快,IT系統(tǒng)架構(gòu)越來(lái)越復(fù)雜,軟件更新迭代越來(lái)越快。銀行信息化建設(shè)中的大量業(yè)務(wù)和數(shù)據(jù)需要依靠信息系統(tǒng)來(lái)完成,這使得構(gòu)建穩(wěn)定可用的IT系統(tǒng)成為業(yè)務(wù)發(fā)展的基礎(chǔ)條件,而IT運(yùn)維管理也隨之成為銀行信息化建設(shè)的重要環(huán)節(jié)。

近年來(lái),因?yàn)镮T系統(tǒng)突然出現(xiàn)故障導(dǎo)致業(yè)務(wù)癱瘓甚至造成巨額損失的現(xiàn)象頻出不窮。而銀行大型數(shù)據(jù)中心由于對(duì)系統(tǒng)、數(shù)據(jù)的高度依賴,IT風(fēng)險(xiǎn)更大,對(duì)IT運(yùn)維管理的重視也就更高。

在銀行IT基礎(chǔ)架構(gòu)層中最重要的就是存儲(chǔ)設(shè)備,存儲(chǔ)最基本的功能就是對(duì)外提供高可靠、高性能的數(shù)據(jù)存取能力。完善的存儲(chǔ)運(yùn)維不僅要對(duì)所有IT系統(tǒng)以數(shù)據(jù)容量超PB級(jí)別的快速精準(zhǔn)管理,更要面對(duì)年增長(zhǎng)超20%的設(shè)備/容量增長(zhǎng),不僅包括SAN/NAS/IPSAN,更包括上千個(gè)SAN端口、異構(gòu)設(shè)備的挑戰(zhàn),時(shí)刻面對(duì)呈指數(shù)級(jí)增長(zhǎng)的應(yīng)用的壓力。就當(dāng)前的現(xiàn)狀來(lái)看,基于存儲(chǔ)的復(fù)制,系統(tǒng)恢復(fù)仍然需要較長(zhǎng)時(shí)間,高可用方案,包括存儲(chǔ)層面的高可用,OS層的卷鏡像,Oracle的ASM,基于應(yīng)用的復(fù)制方案等,管理上也更復(fù)雜。

云平臺(tái)下運(yùn)維的變革

隨著云計(jì)算、大數(shù)據(jù)以及新興的區(qū)塊鏈等技術(shù)體系的迅猛發(fā)展,數(shù)據(jù)中心的擴(kuò)容建設(shè)進(jìn)入高峰期,云數(shù)據(jù)中心運(yùn)維需求應(yīng)運(yùn)而生。傳統(tǒng)的運(yùn)維直接接觸硬件,如服務(wù)器、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)設(shè)備;但是在云數(shù)據(jù)中心時(shí)代,運(yùn)維已經(jīng)從面向物理設(shè)備,轉(zhuǎn)變?yōu)槊嫦蛱摂M化、云的管理方式。

因此,云平臺(tái)下的運(yùn)維提出了新的能力要求——不僅要熟悉傳統(tǒng)硬件設(shè)備,同時(shí)要掌握虛擬化、云系統(tǒng)的部署、監(jiān)控和管理等運(yùn)維能力。存儲(chǔ)系統(tǒng)作為IT基礎(chǔ)設(shè)施的主要部件,也在探索如何利用AI技術(shù)提升其各項(xiàng)能力。

銀行的業(yè)務(wù)千差萬(wàn)別,而不同的業(yè)務(wù)對(duì)可靠性、性能的需求也不盡相同。為滿足這些需求,存儲(chǔ)設(shè)備提供了不同的介質(zhì)、緩存、特性選項(xiàng)。如何合理配置這些選項(xiàng),實(shí)現(xiàn)存儲(chǔ)設(shè)備的最大化利用,就成為了云平臺(tái)存儲(chǔ)運(yùn)維復(fù)雜性的重要來(lái)源。

云平臺(tái)下存儲(chǔ)運(yùn)維實(shí)踐

1.存儲(chǔ)選型:

針對(duì)云下存儲(chǔ),首先需要?jiǎng)澏▽?duì)接不同業(yè)務(wù)類型的存儲(chǔ)服務(wù)。

交易類服務(wù)器:裸機(jī)+FC SAN,適用于核心交易類、數(shù)據(jù)庫(kù)類應(yīng)用,要求極致高性能的傳統(tǒng)關(guān)鍵應(yīng)用;

OpenStack云平臺(tái):1)集中式塊存儲(chǔ)資源池:對(duì)接裸金屬服務(wù)器和KVM云主機(jī);2)分布式塊存儲(chǔ)資源池:對(duì)接KVM云主機(jī);3)分布式對(duì)象存儲(chǔ)資源池;

容器平臺(tái):1)分布式塊存儲(chǔ)資源池:對(duì)接無(wú)狀態(tài)容器主機(jī);2)集中式文件資源池:對(duì)接有狀態(tài)高性能容器需求;

大數(shù)據(jù)平臺(tái):使用服務(wù)器本地盤(pán),存算分離場(chǎng)景使用對(duì)象存儲(chǔ);

數(shù)據(jù)共享與交換:1)集中式NAS用于文件共享、票據(jù)影像等小文件場(chǎng)景,性能更優(yōu);2)分布式NAS:用于視頻監(jiān)控、HPC等大文件場(chǎng)景;

數(shù)據(jù)備份:1)分布式對(duì)象存儲(chǔ)池:用于存儲(chǔ)數(shù)據(jù)在線備份;2)磁帶庫(kù)或藍(lán)光存儲(chǔ):用于存儲(chǔ)數(shù)據(jù)離線歸檔;

如圖1所示。

1.png

圖1:不同業(yè)務(wù)類型的存儲(chǔ)方案

2.基于應(yīng)用感知的存儲(chǔ)運(yùn)維優(yōu)化

通過(guò)存儲(chǔ)設(shè)備內(nèi)置的控制器、緩存、盤(pán)等使用情況去實(shí)時(shí)感知應(yīng)用的特征、存儲(chǔ)的性能、消耗的資源等數(shù)據(jù),并基于獲取的海量實(shí)時(shí)數(shù)據(jù)的進(jìn)行數(shù)據(jù)分析、挖掘、建模和預(yù)測(cè),準(zhǔn)確的判斷出應(yīng)用的業(yè)務(wù)特點(diǎn)和行為模式,也就是應(yīng)用的“DNA”。在后期新業(yè)務(wù)或者未知業(yè)務(wù)的識(shí)別和分析中,通過(guò)業(yè)務(wù)特有的“DNA”,便可準(zhǔn)確獲知其應(yīng)用類型(如OLTP、OLAP、文件共享、VDI等)。更進(jìn)一步,基于長(zhǎng)周期序列數(shù)據(jù)的分析和預(yù)測(cè),存儲(chǔ)可以預(yù)測(cè)應(yīng)用性能需求的峰值和低谷,甚至是某個(gè)時(shí)刻的具體IOPS值,以及應(yīng)用的趨勢(shì)變化。

例如,以應(yīng)用讀寫(xiě)的IO大小分布作為橫坐標(biāo),時(shí)間作為縱坐標(biāo),顏色深淺表示所占比例大小,可畫(huà)出應(yīng)用在一個(gè)業(yè)務(wù)周期內(nèi)IO大小的熱力圖。將不同應(yīng)用若干天的熱力圖放在一起比較,可以清晰的看到不同應(yīng)用的特征區(qū)別顯著,而同一個(gè)應(yīng)用特征相對(duì)穩(wěn)定,如下圖(圖2)所示。顯而易見(jiàn),通過(guò)這些特征可以準(zhǔn)確區(qū)分出不用應(yīng)用。

1.png

圖2:不同應(yīng)用業(yè)務(wù)周期內(nèi)IO大小熱力圖

具備了感知應(yīng)用的能力,在云環(huán)境中就可以清楚的知道運(yùn)行在不同存儲(chǔ)上的應(yīng)用類型。而基于應(yīng)用的特征,配合存儲(chǔ)設(shè)備內(nèi)置的接口,來(lái)調(diào)整和優(yōu)化存儲(chǔ)的配置、參數(shù)、前臺(tái)特性、后臺(tái)任務(wù)等等,最終保障應(yīng)用高效,平穩(wěn)地運(yùn)行。

3.提前預(yù)警和快速消除隱患

通過(guò)設(shè)備隱患的主動(dòng)識(shí)別和提前預(yù)防,提高系統(tǒng)的穩(wěn)定性和數(shù)據(jù)的可靠性,是每個(gè)銀行云平臺(tái)存儲(chǔ)運(yùn)維人都十分關(guān)心的內(nèi)容。

故障預(yù)測(cè):整個(gè)存儲(chǔ)系統(tǒng)是各類子硬件模塊如控制器、盤(pán)、接口卡、緩存和軟件構(gòu)成的復(fù)雜系統(tǒng),每個(gè)部件都有可能出現(xiàn)故障,從而影響整個(gè)系統(tǒng)的穩(wěn)定性。雖然存儲(chǔ)系統(tǒng)做了很多的容錯(cuò)機(jī)制,如不同類型的RAID,陣列雙活等,防止出現(xiàn)數(shù)據(jù)不可用或數(shù)據(jù)丟失等情況,但是若能提前獲知某個(gè)部件即將發(fā)生故障,如硬盤(pán)的失效,通過(guò)硬盤(pán)的SMART信息,學(xué)習(xí)硬盤(pán)在失效前的模式,構(gòu)建機(jī)器學(xué)習(xí)模型,提前預(yù)測(cè)出故障盤(pán),及時(shí)進(jìn)行更換,可極大程度避免由于多盤(pán)故障導(dǎo)致的數(shù)據(jù)丟失問(wèn)題。

基于云端的智能存儲(chǔ)運(yùn)維,通過(guò)收集大量的存儲(chǔ)上報(bào)信息,可實(shí)時(shí)獲知每個(gè)陣列設(shè)備的健康狀態(tài)。當(dāng)發(fā)生故障時(shí),云端ML/AL可以迅速進(jìn)行根因分析,指導(dǎo)故障修復(fù),同時(shí)總結(jié)故障指紋,立即在全網(wǎng)積極排查,避免同類故障在其它局點(diǎn)出現(xiàn)。

系統(tǒng)瓶頸識(shí)別:基于歷史數(shù)據(jù)對(duì)存儲(chǔ)設(shè)備的運(yùn)行情況進(jìn)行預(yù)測(cè),如容量和性能的預(yù)測(cè),給出建議??梢郧宄I(yè)務(wù)在未來(lái)一段時(shí)間的容量和性能需求,并提前進(jìn)行相應(yīng)的擴(kuò)容或SLA(Service Level Agreement)等級(jí)調(diào)整等工作,避免臨時(shí)出現(xiàn)資源不足導(dǎo)致的生產(chǎn)事故。

4.主動(dòng)識(shí)別并準(zhǔn)確定位問(wèn)題

大部分情況下,當(dāng)存儲(chǔ)設(shè)備出現(xiàn)故障時(shí),往往都有一些異常征兆:如控制器CPU占用率上升,或許是短時(shí)間內(nèi)大量告警日志。若這些異常能夠被提前預(yù)警,將會(huì)極大提升云下存儲(chǔ)系統(tǒng)可靠性,降低運(yùn)維風(fēng)險(xiǎn)。

對(duì)于云下存儲(chǔ)設(shè)備來(lái)說(shuō),需要識(shí)別的異常有兩類,一類是KPI(Key Performance Indicator)異常,如CPU占用率、時(shí)延、IOPS、帶寬等指標(biāo)異常;另一類是日志異常,如異常打印。

KPI異常通常分為三類:點(diǎn)異常(Point anomalies),上下文異常(Contexture anomalies)和群集異常(Collective anomalies)。點(diǎn)異常和上下文異常較好理解,群集異常略顯復(fù)雜。例如,在存儲(chǔ)設(shè)備中,通??刂破鞯腃PU利用率會(huì)隨著IOPS的增高或后臺(tái)任務(wù)的增多而增高,當(dāng)IOPS以及后臺(tái)任務(wù)不變的情況下,CPU利用率增高(但尚未到達(dá)告警的閾值),這就是一個(gè)群集異?,F(xiàn)象。識(shí)別這類異常的方法很多,簡(jiǎn)單的方法是基于規(guī)則,通過(guò)設(shè)定閾值來(lái)檢測(cè)。但是,當(dāng)監(jiān)控指標(biāo)很多,業(yè)務(wù)特征很復(fù)雜時(shí),管理這些規(guī)則和閾值就成了不可完成的任務(wù)。更智能的方法,是利用傳統(tǒng)的ARIMA、Holt winter方法,或LSTM,CNN等深度學(xué)習(xí)方法,學(xué)習(xí)出預(yù)測(cè)模型,監(jiān)控預(yù)測(cè)值與實(shí)際值的偏差;或者通過(guò)最近鄰、聚類和馬爾科夫鏈等方法直接找出異常點(diǎn)。

日志異常:日志類的異常檢測(cè)在運(yùn)維已有不少成功的先例。其核心思想如下:通過(guò)分析大量日志,將類似的日志標(biāo)記為一個(gè)事件。通過(guò)學(xué)習(xí)正常日志來(lái)歸納總結(jié)這些事件的正常模式。當(dāng)系統(tǒng)發(fā)生異常,產(chǎn)生不正常的日志時(shí),就可判斷出這時(shí)的事件發(fā)生模式有異常,可將其標(biāo)記為不正常的時(shí)間段,如圖3所示。

1.png

圖3:機(jī)器學(xué)習(xí)在問(wèn)題定位中的應(yīng)用

監(jiān)控升級(jí),云存儲(chǔ)運(yùn)維向AIOps演進(jìn)

隨著堆棧變得越來(lái)越復(fù)雜和關(guān)鍵,在云平臺(tái)存儲(chǔ)運(yùn)維流程建立完備后,需要整體的AIOps的功能。特別是在云下混合、虛擬化和異構(gòu)環(huán)境中,應(yīng)用于基礎(chǔ)設(shè)施性能管理(IPM)的AIOps能夠有效地確保最佳性能,可以監(jiān)督業(yè)務(wù)關(guān)鍵型面向客戶的應(yīng)用程序的運(yùn)行狀況和利用率,能夠在數(shù)據(jù)中心基礎(chǔ)設(shè)施中出現(xiàn)任何潛在阻塞或延遲問(wèn)題之前提供警報(bào)。

未來(lái)存儲(chǔ)監(jiān)控平臺(tái)可結(jié)合整體智能運(yùn)維分層立體的監(jiān)控體系,實(shí)現(xiàn)從基礎(chǔ)設(shè)施到租戶業(yè)務(wù)的端到端的全覆蓋的立體監(jiān)控,提供基礎(chǔ)監(jiān)控、業(yè)務(wù)監(jiān)控、鏈路監(jiān)控等方面通用平臺(tái)能力,將監(jiān)控平臺(tái)+云服務(wù)+一線運(yùn)維等各云服務(wù)監(jiān)控整合基于監(jiān)控平臺(tái)實(shí)現(xiàn)自己特定業(yè)務(wù)監(jiān)控。

針對(duì)未來(lái)IaaS規(guī)模急速增長(zhǎng),監(jiān)控平臺(tái)需結(jié)合SRE數(shù)據(jù)平臺(tái)制定基于Region,基于資源的集群隔離及解耦方案,平滑應(yīng)對(duì)未來(lái)現(xiàn)網(wǎng)的規(guī)模增長(zhǎng)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論