久久露脸国产精品,亚洲?v无码一区二区乱子伦,免费在线观看一区二区

云平臺(tái)下存儲(chǔ)運(yùn)維的變革與實(shí)踐

2023-10-23 09:03

twt企業(yè)IT社區(qū)

白東旭、王向虎

隨著銀行數(shù)字化轉(zhuǎn)型升級(jí)進(jìn)程的加快，IT系統(tǒng)架構(gòu)越來(lái)越復(fù)雜，軟件更新迭代越來(lái)越快。銀行信息化建設(shè)中的大量業(yè)務(wù)和數(shù)據(jù)需要依靠信息系統(tǒng)來(lái)完成，這使得構(gòu)建穩(wěn)定可用的IT系統(tǒng)成為業(yè)務(wù)發(fā)展的基礎(chǔ)條件，而IT運(yùn)維管理也隨之成為銀行信息化建設(shè)的重要環(huán)節(jié)。

本文來(lái)自微信公眾號(hào)“twt企業(yè)IT社區(qū)”，作者/白東旭、王向虎，民生銀行科技部工程師。

現(xiàn)有運(yùn)維體系的建設(shè)現(xiàn)狀

近年來(lái)，因?yàn)镮T系統(tǒng)突然出現(xiàn)故障導(dǎo)致業(yè)務(wù)癱瘓甚至造成巨額損失的現(xiàn)象頻出不窮。而銀行大型數(shù)據(jù)中心由于對(duì)系統(tǒng)、數(shù)據(jù)的高度依賴，IT風(fēng)險(xiǎn)更大，對(duì)IT運(yùn)維管理的重視也就更高。

在銀行IT基礎(chǔ)架構(gòu)層中最重要的就是存儲(chǔ)設(shè)備，存儲(chǔ)最基本的功能就是對(duì)外提供高可靠、高性能的數(shù)據(jù)存取能力。完善的存儲(chǔ)運(yùn)維不僅要對(duì)所有IT系統(tǒng)以數(shù)據(jù)容量超PB級(jí)別的快速精準(zhǔn)管理，更要面對(duì)年增長(zhǎng)超20%的設(shè)備/容量增長(zhǎng)，不僅包括SAN/NAS/IPSAN，更包括上千個(gè)SAN端口、異構(gòu)設(shè)備的挑戰(zhàn)，時(shí)刻面對(duì)呈指數(shù)級(jí)增長(zhǎng)的應(yīng)用的壓力。就當(dāng)前的現(xiàn)狀來(lái)看，基于存儲(chǔ)的復(fù)制，系統(tǒng)恢復(fù)仍然需要較長(zhǎng)時(shí)間，高可用方案，包括存儲(chǔ)層面的高可用，OS層的卷鏡像，Oracle的ASM，基于應(yīng)用的復(fù)制方案等，管理上也更復(fù)雜。

云平臺(tái)下運(yùn)維的變革

隨著云計(jì)算、大數(shù)據(jù)以及新興的區(qū)塊鏈等技術(shù)體系的迅猛發(fā)展，數(shù)據(jù)中心的擴(kuò)容建設(shè)進(jìn)入高峰期，云數(shù)據(jù)中心運(yùn)維需求應(yīng)運(yùn)而生。傳統(tǒng)的運(yùn)維直接接觸硬件，如服務(wù)器、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)設(shè)備；但是在云數(shù)據(jù)中心時(shí)代，運(yùn)維已經(jīng)從面向物理設(shè)備，轉(zhuǎn)變?yōu)槊嫦蛱摂M化、云的管理方式。

因此，云平臺(tái)下的運(yùn)維提出了新的能力要求——不僅要熟悉傳統(tǒng)硬件設(shè)備，同時(shí)要掌握虛擬化、云系統(tǒng)的部署、監(jiān)控和管理等運(yùn)維能力。存儲(chǔ)系統(tǒng)作為IT基礎(chǔ)設(shè)施的主要部件，也在探索如何利用AI技術(shù)提升其各項(xiàng)能力。

銀行的業(yè)務(wù)千差萬(wàn)別，而不同的業(yè)務(wù)對(duì)可靠性、性能的需求也不盡相同。為滿足這些需求，存儲(chǔ)設(shè)備提供了不同的介質(zhì)、緩存、特性選項(xiàng)。如何合理配置這些選項(xiàng)，實(shí)現(xiàn)存儲(chǔ)設(shè)備的最大化利用，就成為了云平臺(tái)存儲(chǔ)運(yùn)維復(fù)雜性的重要來(lái)源。

云平臺(tái)下存儲(chǔ)運(yùn)維實(shí)踐

1.存儲(chǔ)選型：

針對(duì)云下存儲(chǔ)，首先需要?jiǎng)澏▽?duì)接不同業(yè)務(wù)類型的存儲(chǔ)服務(wù)。

交易類服務(wù)器：裸機(jī)+FC SAN,適用于核心交易類、數(shù)據(jù)庫(kù)類應(yīng)用，要求極致高性能的傳統(tǒng)關(guān)鍵應(yīng)用；

OpenStack云平臺(tái)：1）集中式塊存儲(chǔ)資源池：對(duì)接裸金屬服務(wù)器和KVM云主機(jī)；2）分布式塊存儲(chǔ)資源池：對(duì)接KVM云主機(jī)；3）分布式對(duì)象存儲(chǔ)資源池；

容器平臺(tái)：1）分布式塊存儲(chǔ)資源池：對(duì)接無(wú)狀態(tài)容器主機(jī)；2）集中式文件資源池：對(duì)接有狀態(tài)高性能容器需求；

大數(shù)據(jù)平臺(tái)：使用服務(wù)器本地盤(pán)，存算分離場(chǎng)景使用對(duì)象存儲(chǔ)；

數(shù)據(jù)共享與交換：1）集中式NAS用于文件共享、票據(jù)影像等小文件場(chǎng)景，性能更優(yōu)；2）分布式NAS：用于視頻監(jiān)控、HPC等大文件場(chǎng)景；

數(shù)據(jù)備份：1）分布式對(duì)象存儲(chǔ)池：用于存儲(chǔ)數(shù)據(jù)在線備份；2）磁帶庫(kù)或藍(lán)光存儲(chǔ)：用于存儲(chǔ)數(shù)據(jù)離線歸檔；

如圖1所示。

圖1：不同業(yè)務(wù)類型的存儲(chǔ)方案

2.基于應(yīng)用感知的存儲(chǔ)運(yùn)維優(yōu)化

通過(guò)存儲(chǔ)設(shè)備內(nèi)置的控制器、緩存、盤(pán)等使用情況去實(shí)時(shí)感知應(yīng)用的特征、存儲(chǔ)的性能、消耗的資源等數(shù)據(jù)，并基于獲取的海量實(shí)時(shí)數(shù)據(jù)的進(jìn)行數(shù)據(jù)分析、挖掘、建模和預(yù)測(cè)，準(zhǔn)確的判斷出應(yīng)用的業(yè)務(wù)特點(diǎn)和行為模式，也就是應(yīng)用的“DNA”。在后期新業(yè)務(wù)或者未知業(yè)務(wù)的識(shí)別和分析中，通過(guò)業(yè)務(wù)特有的“DNA”，便可準(zhǔn)確獲知其應(yīng)用類型（如OLTP、OLAP、文件共享、VDI等）。更進(jìn)一步，基于長(zhǎng)周期序列數(shù)據(jù)的分析和預(yù)測(cè)，存儲(chǔ)可以預(yù)測(cè)應(yīng)用性能需求的峰值和低谷，甚至是某個(gè)時(shí)刻的具體IOPS值，以及應(yīng)用的趨勢(shì)變化。

例如，以應(yīng)用讀寫(xiě)的IO大小分布作為橫坐標(biāo)，時(shí)間作為縱坐標(biāo)，顏色深淺表示所占比例大小，可畫(huà)出應(yīng)用在一個(gè)業(yè)務(wù)周期內(nèi)IO大小的熱力圖。將不同應(yīng)用若干天的熱力圖放在一起比較，可以清晰的看到不同應(yīng)用的特征區(qū)別顯著，而同一個(gè)應(yīng)用特征相對(duì)穩(wěn)定，如下圖（圖2）所示。顯而易見(jiàn)，通過(guò)這些特征可以準(zhǔn)確區(qū)分出不用應(yīng)用。

圖2：不同應(yīng)用業(yè)務(wù)周期內(nèi)IO大小熱力圖

具備了感知應(yīng)用的能力，在云環(huán)境中就可以清楚的知道運(yùn)行在不同存儲(chǔ)上的應(yīng)用類型。而基于應(yīng)用的特征，配合存儲(chǔ)設(shè)備內(nèi)置的接口，來(lái)調(diào)整和優(yōu)化存儲(chǔ)的配置、參數(shù)、前臺(tái)特性、后臺(tái)任務(wù)等等，最終保障應(yīng)用高效，平穩(wěn)地運(yùn)行。

3.提前預(yù)警和快速消除隱患

通過(guò)設(shè)備隱患的主動(dòng)識(shí)別和提前預(yù)防，提高系統(tǒng)的穩(wěn)定性和數(shù)據(jù)的可靠性，是每個(gè)銀行云平臺(tái)存儲(chǔ)運(yùn)維人都十分關(guān)心的內(nèi)容。

故障預(yù)測(cè)：整個(gè)存儲(chǔ)系統(tǒng)是各類子硬件模塊如控制器、盤(pán)、接口卡、緩存和軟件構(gòu)成的復(fù)雜系統(tǒng)，每個(gè)部件都有可能出現(xiàn)故障，從而影響整個(gè)系統(tǒng)的穩(wěn)定性。雖然存儲(chǔ)系統(tǒng)做了很多的容錯(cuò)機(jī)制，如不同類型的RAID，陣列雙活等，防止出現(xiàn)數(shù)據(jù)不可用或數(shù)據(jù)丟失等情況，但是若能提前獲知某個(gè)部件即將發(fā)生故障，如硬盤(pán)的失效，通過(guò)硬盤(pán)的SMART信息，學(xué)習(xí)硬盤(pán)在失效前的模式，構(gòu)建機(jī)器學(xué)習(xí)模型，提前預(yù)測(cè)出故障盤(pán)，及時(shí)進(jìn)行更換，可極大程度避免由于多盤(pán)故障導(dǎo)致的數(shù)據(jù)丟失問(wèn)題。

基于云端的智能存儲(chǔ)運(yùn)維，通過(guò)收集大量的存儲(chǔ)上報(bào)信息，可實(shí)時(shí)獲知每個(gè)陣列設(shè)備的健康狀態(tài)。當(dāng)發(fā)生故障時(shí)，云端ML/AL可以迅速進(jìn)行根因分析，指導(dǎo)故障修復(fù)，同時(shí)總結(jié)故障指紋，立即在全網(wǎng)積極排查，避免同類故障在其它局點(diǎn)出現(xiàn)。

系統(tǒng)瓶頸識(shí)別：基于歷史數(shù)據(jù)對(duì)存儲(chǔ)設(shè)備的運(yùn)行情況進(jìn)行預(yù)測(cè)，如容量和性能的預(yù)測(cè)，給出建議?？梢郧宄I(yè)務(wù)在未來(lái)一段時(shí)間的容量和性能需求，并提前進(jìn)行相應(yīng)的擴(kuò)容或SLA（Service Level Agreement）等級(jí)調(diào)整等工作，避免臨時(shí)出現(xiàn)資源不足導(dǎo)致的生產(chǎn)事故。

4.主動(dòng)識(shí)別并準(zhǔn)確定位問(wèn)題

大部分情況下，當(dāng)存儲(chǔ)設(shè)備出現(xiàn)故障時(shí)，往往都有一些異常征兆：如控制器CPU占用率上升，或許是短時(shí)間內(nèi)大量告警日志。若這些異常能夠被提前預(yù)警，將會(huì)極大提升云下存儲(chǔ)系統(tǒng)可靠性，降低運(yùn)維風(fēng)險(xiǎn)。

對(duì)于云下存儲(chǔ)設(shè)備來(lái)說(shuō)，需要識(shí)別的異常有兩類，一類是KPI（Key Performance Indicator）異常，如CPU占用率、時(shí)延、IOPS、帶寬等指標(biāo)異常；另一類是日志異常，如異常打印。

KPI異常通常分為三類：點(diǎn)異常(Point anomalies),上下文異常(Contexture anomalies)和群集異常(Collective anomalies)。點(diǎn)異常和上下文異常較好理解，群集異常略顯復(fù)雜。例如，在存儲(chǔ)設(shè)備中，通?？刂破鞯腃PU利用率會(huì)隨著IOPS的增高或后臺(tái)任務(wù)的增多而增高，當(dāng)IOPS以及后臺(tái)任務(wù)不變的情況下，CPU利用率增高（但尚未到達(dá)告警的閾值），這就是一個(gè)群集異?，F(xiàn)象。識(shí)別這類異常的方法很多，簡(jiǎn)單的方法是基于規(guī)則，通過(guò)設(shè)定閾值來(lái)檢測(cè)。但是，當(dāng)監(jiān)控指標(biāo)很多，業(yè)務(wù)特征很復(fù)雜時(shí)，管理這些規(guī)則和閾值就成了不可完成的任務(wù)。更智能的方法，是利用傳統(tǒng)的ARIMA、Holt winter方法，或LSTM，CNN等深度學(xué)習(xí)方法，學(xué)習(xí)出預(yù)測(cè)模型，監(jiān)控預(yù)測(cè)值與實(shí)際值的偏差；或者通過(guò)最近鄰、聚類和馬爾科夫鏈等方法直接找出異常點(diǎn)。

日志異常：日志類的異常檢測(cè)在運(yùn)維已有不少成功的先例。其核心思想如下：通過(guò)分析大量日志，將類似的日志標(biāo)記為一個(gè)事件。通過(guò)學(xué)習(xí)正常日志來(lái)歸納總結(jié)這些事件的正常模式。當(dāng)系統(tǒng)發(fā)生異常，產(chǎn)生不正常的日志時(shí)，就可判斷出這時(shí)的事件發(fā)生模式有異常，可將其標(biāo)記為不正常的時(shí)間段，如圖3所示。

圖3：機(jī)器學(xué)習(xí)在問(wèn)題定位中的應(yīng)用

監(jiān)控升級(jí)，云存儲(chǔ)運(yùn)維向AIOps演進(jìn)

隨著堆棧變得越來(lái)越復(fù)雜和關(guān)鍵，在云平臺(tái)存儲(chǔ)運(yùn)維流程建立完備后，需要整體的AIOps的功能。特別是在云下混合、虛擬化和異構(gòu)環(huán)境中，應(yīng)用于基礎(chǔ)設(shè)施性能管理(IPM)的AIOps能夠有效地確保最佳性能，可以監(jiān)督業(yè)務(wù)關(guān)鍵型面向客戶的應(yīng)用程序的運(yùn)行狀況和利用率，能夠在數(shù)據(jù)中心基礎(chǔ)設(shè)施中出現(xiàn)任何潛在阻塞或延遲問(wèn)題之前提供警報(bào)。

未來(lái)存儲(chǔ)監(jiān)控平臺(tái)可結(jié)合整體智能運(yùn)維分層立體的監(jiān)控體系，實(shí)現(xiàn)從基礎(chǔ)設(shè)施到租戶業(yè)務(wù)的端到端的全覆蓋的立體監(jiān)控，提供基礎(chǔ)監(jiān)控、業(yè)務(wù)監(jiān)控、鏈路監(jiān)控等方面通用平臺(tái)能力，將監(jiān)控平臺(tái)+云服務(wù)+一線運(yùn)維等各云服務(wù)監(jiān)控整合基于監(jiān)控平臺(tái)實(shí)現(xiàn)自己特定業(yè)務(wù)監(jiān)控。

針對(duì)未來(lái)IaaS規(guī)模急速增長(zhǎng)，監(jiān)控平臺(tái)需結(jié)合SRE數(shù)據(jù)平臺(tái)制定基于Region，基于資源的集群隔離及解耦方案，平滑應(yīng)對(duì)未來(lái)現(xiàn)網(wǎng)的規(guī)模增長(zhǎng)。

THEEND

免責(zé)聲明：凡注明為其它來(lái)源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門(mén)

精選文章

熱點(diǎn)資訊

上海數(shù)據(jù)交易所發(fā)布《上海數(shù)據(jù)交易所數(shù)據(jù)交易安全合規(guī)指引》

云平臺(tái)下存儲(chǔ)運(yùn)維的變革與實(shí)踐

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

云平臺(tái)下存儲(chǔ)運(yùn)維的變革與實(shí)踐

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

如何發(fā)現(xiàn)面向互聯(lián)網(wǎng)的資產(chǎn)

Windows引入AI助手!從搜索引擎、辦公軟件，到操作系統(tǒng)!微軟帶來(lái)的技術(shù)變革!

“定期更換密碼”是最愚蠢的密碼規(guī)則？

從礦山到油田，5G+AI為能源行業(yè)添智慧

本月熱門(mén)

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國(guó)際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬(wàn)億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

2022中國(guó)數(shù)據(jù)商業(yè)生態(tài)大會(huì)將于7月14日-15日在廣州召開(kāi)

工業(yè)互聯(lián)網(wǎng)創(chuàng)新峰會(huì)|“雙跨”平臺(tái)廣域銘島榮獲雙料獎(jiǎng)項(xiàng)

重慶軟件園總裁孫丕宏受邀出席RCEP數(shù)字貿(mào)易合作發(fā)展論壇并作主題演講

基于企業(yè)合作關(guān)系最大程度地利用云資源

【喜訊】藍(lán)創(chuàng)智能在信創(chuàng)領(lǐng)域再獲榮譽(yù)!

對(duì)話楊柳 | 廣泛賦能，中鐵電氣化局與數(shù)智未來(lái)的“雙向奔赴”

熱點(diǎn)資訊

共筑數(shù)字未來(lái)|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線索：企業(yè)騰飛的雙重動(dòng)力引擎!

鼎好DH3煥新顏，美的樓宇科技助力中關(guān)村地標(biāo)綠色新生

上海數(shù)據(jù)交易所發(fā)布《上海數(shù)據(jù)交易所數(shù)據(jù)交易安全合規(guī)指引》

Chiplet如何改變半導(dǎo)體？

云平臺(tái)下存儲(chǔ)運(yùn)維的變革與實(shí)踐

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

如何發(fā)現(xiàn)面向互聯(lián)網(wǎng)的資產(chǎn)

Windows引入AI助手!從搜索引擎、辦公軟件，到操作系統(tǒng)!微軟帶來(lái)的技術(shù)變革!

“定期更換密碼”是最愚蠢的密碼規(guī)則？

從礦山到油田，5G+AI為能源行業(yè)添智慧

本月熱門(mén)

精選文章

熱點(diǎn)資訊

上海數(shù)據(jù)交易所發(fā)布《上海數(shù)據(jù)交易所數(shù)據(jù)交易安全合規(guī)指引》

Chiplet如何改變半導(dǎo)體？

Windows引入AI助手!從搜索引擎、辦公軟件，到操作系統(tǒng)!微軟帶來(lái)的技術(shù)變革!

“定期更換密碼”是最愚蠢的密碼規(guī)則？

從礦山到油田，5G+AI為能源行業(yè)添智慧

Chiplet如何改變半導(dǎo)體？