金融業(yè)的IT運(yùn)維如何升級(jí)?

金融行業(yè)智能運(yùn)維AIOps實(shí)施建議白皮書
長(zhǎng)久以來,金融業(yè)IT運(yùn)維管理一直強(qiáng)調(diào)通過嚴(yán)格的制度和規(guī)范的流程,把復(fù)雜系統(tǒng)納入可預(yù)期的管理操作之下,使之進(jìn)入“穩(wěn)定狀態(tài)”。IT運(yùn)維主管是做“救火隊(duì)長(zhǎng)”還是“防火專家”主要取決于內(nèi)部的管理制度建設(shè)和落實(shí)。

隨著人工智能和大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,越來越多的業(yè)務(wù)領(lǐng)域都在嘗試進(jìn)行業(yè)務(wù)能力的升級(jí)。眾所周知,金融領(lǐng)域?qū)T系統(tǒng)的服務(wù)要求極為苛刻,要求7x24持續(xù)不間斷、接近于“零”宕機(jī)的99.999%要求。

金融業(yè)務(wù)的持續(xù)創(chuàng)新帶來其支撐軟件的不斷變化和迭代以及對(duì)IT系統(tǒng)服務(wù)越來越高的要求。因此,金融行業(yè)數(shù)據(jù)中心運(yùn)維領(lǐng)域也必然需要引入新技術(shù)、新思路、新體系來更智能化地為金融行業(yè)保駕護(hù)航。

過去二十多年,金融行業(yè)IT技術(shù)取得了長(zhǎng)足發(fā)展,而IT運(yùn)維管理的痛點(diǎn)和難點(diǎn)也層出不窮,運(yùn)維一線團(tuán)隊(duì)長(zhǎng)期處于緊張和壓力的狀態(tài),經(jīng)歷了無數(shù)個(gè)診斷故障與解決問題的不眠之夜。

有人說,每一次運(yùn)維團(tuán)隊(duì)的經(jīng)歷都不僅是挫折,而是“毀滅性的災(zāi)難”。無論甲方還是乙方,對(duì)運(yùn)維的要求早已超越了“維穩(wěn)“的范疇。

過去很長(zhǎng)一段時(shí)間里,IT運(yùn)維依賴的主要是人腦的智慧,專家的經(jīng)驗(yàn)和產(chǎn)品技術(shù)的更新迭代,去響應(yīng)和處理已經(jīng)發(fā)生的故障。

今天,大環(huán)境已經(jīng)發(fā)生巨變,人工智能開始“加持”運(yùn)維,由此誕生了本書所說的智能運(yùn)維(AlOps)。通過將金融行業(yè)與IT運(yùn)維經(jīng)驗(yàn)和機(jī)器學(xué)習(xí)算法相結(jié)合,能實(shí)現(xiàn)對(duì)業(yè)務(wù)狀況進(jìn)行“故障預(yù)警”。

長(zhǎng)久以來,金融業(yè)IT運(yùn)維管理一直強(qiáng)調(diào)通過嚴(yán)格的制度和規(guī)范的流程,把復(fù)雜系統(tǒng)納入可預(yù)期的管理操作之下,使之進(jìn)入“穩(wěn)定狀態(tài)”。IT運(yùn)維主管是做“救火隊(duì)長(zhǎng)”還是“防火專家”主要取決于內(nèi)部的管理制度建設(shè)和落實(shí)。

然而,云時(shí)代大量新技術(shù)的應(yīng)用,整個(gè)金融后臺(tái)系統(tǒng)出現(xiàn)雙速IT,總是有一部分系統(tǒng)保持在“敏捷狀態(tài)”,簡(jiǎn)化的流程、快速的迭代、復(fù)雜的技術(shù)都對(duì)傳統(tǒng)的管理方法提出挑戰(zhàn),管理好高速變化中的系統(tǒng)都需要有更先進(jìn)的IT管理思路和更高級(jí)的科技手段。

利用人工智能技術(shù),可以幫助運(yùn)維人員在事后的蛛絲馬跡中快速定位問題、在事中的運(yùn)行指標(biāo)中發(fā)現(xiàn)故障并實(shí)時(shí)響應(yīng)、甚至在事前洞察到可能的風(fēng)險(xiǎn)并提前調(diào)整優(yōu)化,基于人工智能的新一代運(yùn)維方法稱為AIOps,它能極大降低IT運(yùn)維的工作強(qiáng)度,同時(shí)顯著提升反應(yīng)速度。

更重要的是,它能使運(yùn)維人員洞見未來,提前進(jìn)行判斷,提高系統(tǒng)有效性和資源合理性。在近些年的市場(chǎng)中,AlOps受到越來越多的關(guān)注,正在成為新的主流方向,成為IT運(yùn)維神器。

01、什么是AIOps?

根據(jù)Gartner的分析報(bào)告,IT運(yùn)營人員(ITOps)的工作在未來幾年內(nèi)將發(fā)生重大變化。這種變化是受傳統(tǒng)IT管理技術(shù)(企業(yè)ITOps團(tuán)隊(duì)認(rèn)為無法應(yīng)對(duì)數(shù)字業(yè)務(wù)轉(zhuǎn)型的方法)的挫折所驅(qū)動(dòng)的。

Gartner預(yù)測(cè),我們將看到當(dāng)前IT運(yùn)營程序的重大變化,以及我們?nèi)绾喂芾鞩T生態(tài)系統(tǒng)的重組。而這些變化的關(guān)鍵是Gartner稱之為AIOps的新平臺(tái)。簡(jiǎn)單來說,AlOps就是希望通過人工智能的方式,進(jìn)一步提升運(yùn)維效率,包括運(yùn)維決策、故障預(yù)測(cè)和問題分析等。

智能運(yùn)維AlOps通過系統(tǒng)運(yùn)行過程中所產(chǎn)生的數(shù)據(jù),運(yùn)用AI和算法、運(yùn)籌理論等相關(guān)技術(shù),對(duì)運(yùn)維數(shù)據(jù)進(jìn)行分析,進(jìn)而提升運(yùn)維效率的新一代運(yùn)維手段和方法。

02、金融業(yè)運(yùn)維特點(diǎn)

金融業(yè)一直走在IT技術(shù)趨勢(shì)發(fā)展的第一梯隊(duì)。一方面金融行業(yè)有著過往30年采用企業(yè)級(jí)IOE軟件硬件基礎(chǔ)架構(gòu)的長(zhǎng)期經(jīng)驗(yàn),另一方面金融行業(yè)也在積極踐行開源軟件和互聯(lián)網(wǎng)架構(gòu)的實(shí)踐。

在迫切的業(yè)務(wù)需求面前,銀行傳統(tǒng)IT運(yùn)維還面臨著交付效率、運(yùn)維質(zhì)量等方面的多重壓力。在雙模IT建設(shè)中,如何保證業(yè)務(wù)系統(tǒng)穩(wěn)定性、故障定位和根因調(diào)查,都極大挑戰(zhàn)IT運(yùn)維人員的水平和運(yùn)維的有效性。切換被動(dòng)式運(yùn)維到主動(dòng)式/預(yù)測(cè)式運(yùn)維可以極大地提升運(yùn)維效率。

金融業(yè)IT系統(tǒng)特點(diǎn):

由大量大型機(jī)、小型機(jī)、存儲(chǔ)、網(wǎng)絡(luò)等設(shè)備構(gòu)成基礎(chǔ)架構(gòu)

有大量企業(yè)級(jí)軟件Tivoli/Oracle/Websphere/MQ/ESB等

采用企業(yè)級(jí)監(jiān)控軟件,監(jiān)控指標(biāo)多應(yīng)用于企業(yè)軟件

有復(fù)雜的異構(gòu)環(huán)境和應(yīng)用拓?fù)涞膽?yīng)用系統(tǒng)

業(yè)務(wù)需要有嚴(yán)苛的交易事務(wù)保護(hù)處理機(jī)制

有各種業(yè)務(wù)體系和應(yīng)用日志數(shù)據(jù)格式標(biāo)準(zhǔn)

強(qiáng)監(jiān)管成為金融科技行業(yè)的主旋律

03、金融業(yè)運(yùn)維痛點(diǎn)

金融行業(yè)是當(dāng)前IT建設(shè)和運(yùn)維水平最發(fā)達(dá)的行業(yè)之一。伴隨著金融行業(yè)高速發(fā)展,IT建設(shè)的規(guī)模也越來越大、IT運(yùn)維的復(fù)雜度也越來越高。傳統(tǒng)的IT運(yùn)維管理ITOM和運(yùn)維理論ITIL已經(jīng)越來越不能完全滿足金融行業(yè)IT建設(shè)的龐大規(guī)模。

金融行業(yè)日趨嚴(yán)格的監(jiān)控要求,對(duì)銀行業(yè)務(wù)的連續(xù)性管理和網(wǎng)絡(luò)安全防護(hù)能力提出更高的要求;IT運(yùn)營規(guī)模增長(zhǎng)和架構(gòu)日益復(fù)雜,對(duì)運(yùn)維自動(dòng)化水平提出更高的要求;銀行同業(yè)競(jìng)爭(zhēng)日趨激烈,為搶占市場(chǎng)、提升客戶體驗(yàn),對(duì)IT交付能力提出更高要求;快速業(yè)務(wù)創(chuàng)新對(duì)基礎(chǔ)環(huán)境的彈性伸縮能力提出更高要求;同時(shí)大的環(huán)境也要求各銀行加強(qiáng)運(yùn)營成本控制,對(duì)IT部門降本增效的能力有了更高的要求。

對(duì)于金融行業(yè)兩地三中心部署,超過數(shù)千個(gè)的復(fù)雜系統(tǒng)和異構(gòu)軟硬件設(shè)備,每天產(chǎn)生TB數(shù)據(jù)級(jí)的數(shù)據(jù)量,金融系統(tǒng)宕機(jī)將直接影響到各行各業(yè)的業(yè)務(wù),而采用傳統(tǒng)運(yùn)維專員+I(xiàn)TOM管理平臺(tái)的運(yùn)維手段勢(shì)必將越來越不能適應(yīng)IT發(fā)展的趨勢(shì)。

總結(jié)下來,金融行業(yè)普遍面臨如下痛點(diǎn):

2345截圖20200908083720.png

04、AIOps在金融業(yè)的發(fā)展現(xiàn)狀

金融行業(yè)在AIOps建設(shè)領(lǐng)域,有非常特殊和領(lǐng)先的地位。

發(fā)展趨勢(shì):

1.不少金融機(jī)構(gòu)已經(jīng)在AIOps方向立項(xiàng);

2.大部分金融機(jī)構(gòu)已經(jīng)或正在構(gòu)建運(yùn)維大數(shù)據(jù)平臺(tái);

3.部分金融機(jī)構(gòu)從運(yùn)維痛點(diǎn)出發(fā)嘗試AIOps;

4.不少金融機(jī)構(gòu)希望把AIOps作為響應(yīng)國家戰(zhàn)略的試驗(yàn)田。

不足之處:

1.概念魚龍混雜,架構(gòu)定義不清晰;

2.落地方案不明確,沒有貼合自身實(shí)際痛點(diǎn);

3.數(shù)據(jù)治理沒有完成前,匆忙上線;

4.AI期望過高,偏離AI實(shí)際能力從而導(dǎo)致項(xiàng)目失敗;

5.嘗試用互聯(lián)網(wǎng)建設(shè)思路建設(shè)AIOps。

05、金融業(yè)AIOps目標(biāo)

隨著業(yè)務(wù)和基礎(chǔ)IT技術(shù)的飛速發(fā)展,規(guī)模、人員、效率的矛盾日漸突出,一方面金融企業(yè)切實(shí)存在運(yùn)維痛點(diǎn)。另一方面各企業(yè)均建立了自己的大數(shù)據(jù)平臺(tái),在摸索通過自動(dòng)化、智能運(yùn)維的方式解決現(xiàn)實(shí)中的問題。智能運(yùn)維AIOps已經(jīng)不是企業(yè)的可選項(xiàng),而成為發(fā)展的必選項(xiàng)。

同時(shí),隨著AI技術(shù)在各個(gè)應(yīng)用領(lǐng)域的落地及實(shí)踐,IT運(yùn)維也將迎來一個(gè)智能化運(yùn)維的新時(shí)代。算法的效率提升了AIOps的價(jià)值,通過持續(xù)學(xué)習(xí),智能運(yùn)維將把運(yùn)維人員從紛繁復(fù)雜的告警和噪音中解放出來。

基于實(shí)際實(shí)施經(jīng)驗(yàn)和對(duì)項(xiàng)目的理解,初步分為三個(gè)階段目標(biāo):

2345截圖20200908083720.png

06、金融行業(yè)AIOps的價(jià)值

AlOps終極形態(tài):無人值守運(yùn)維。“AIOps正在廣泛應(yīng)用于IT大數(shù)據(jù)和業(yè)務(wù)大數(shù)據(jù)分析領(lǐng)域,為企業(yè)提供極具價(jià)值的業(yè)務(wù)洞察能力”。

據(jù)Gartner分析師最新預(yù)測(cè),到了2022年,部署AIOps平臺(tái)的大型企業(yè)數(shù)量將從如今的不足5%,迅速提升到40%左右,而這些企業(yè)會(huì)把AlOps用于業(yè)務(wù)運(yùn)營和IT運(yùn)維,以取代如今的運(yùn)維監(jiān)控、管理工具和自動(dòng)化運(yùn)維產(chǎn)品。

當(dāng)前企業(yè)的數(shù)字化程度越來越高,IT系統(tǒng)的復(fù)雜度和規(guī)模越來越大。當(dāng)前在金融領(lǐng)域IT最主要矛盾逐漸轉(zhuǎn)變?yōu)闃I(yè)務(wù)對(duì)IT運(yùn)維要求的越來越高和傳統(tǒng)IT運(yùn)維水平和管理方法越來越不能滿足日常運(yùn)維服務(wù)水平。

因此在金融行業(yè)采用AlOps智能運(yùn)維勢(shì)在必行,這將是下一代運(yùn)維的核心生產(chǎn)力和能力基礎(chǔ)。創(chuàng)造IT運(yùn)維新方式,助力IT運(yùn)維新高度。

預(yù)期價(jià)值收益如下:

2345截圖20200908083720.png

07、金融業(yè)AIOps系統(tǒng)集成建議

在金融業(yè)競(jìng)爭(zhēng)日益激烈的今天,金融行業(yè)的業(yè)務(wù)類型不斷增加和變化,要求IT在原有的業(yè)務(wù)系統(tǒng)上不斷的擴(kuò)展改造,因此新的金融業(yè)AIOps集成方案應(yīng)運(yùn)而生,來為金融業(yè)解決此類問題。通過新方案和新的運(yùn)維模式能夠達(dá)到一體化智能運(yùn)維的目的,從而提升整個(gè)數(shù)據(jù)中心運(yùn)行效率,降低成本。因此我們建立了一個(gè)運(yùn)維金字塔參考模型,指導(dǎo)我們。

AlOps系統(tǒng)集成項(xiàng)目規(guī)劃及實(shí)施:

數(shù)據(jù)基礎(chǔ)(監(jiān)控)

這是智能運(yùn)維的基石,從數(shù)據(jù)層面來看,金融業(yè)運(yùn)維的數(shù)據(jù)是非常多樣化的,通常會(huì)有告警數(shù)據(jù),性能數(shù)據(jù),日志數(shù)據(jù),配置數(shù)據(jù)等,通常企業(yè)在多年的發(fā)展中已經(jīng)建設(shè)了監(jiān)控系統(tǒng),而且有些企業(yè)也會(huì)部署自動(dòng)運(yùn)維系統(tǒng)來實(shí)現(xiàn)快速部署應(yīng)用中間件/數(shù)據(jù)庫,自動(dòng)化巡檢等功能。

數(shù)據(jù)管理(報(bào)告)

數(shù)據(jù)管理是利用計(jì)算機(jī)硬件和軟件技術(shù)對(duì)數(shù)據(jù)進(jìn)行有效的收集、存儲(chǔ)、處理和應(yīng)用的過程。其目的在于充分有效地發(fā)揮數(shù)據(jù)的作用,從而實(shí)現(xiàn)數(shù)據(jù)有效管理,其中關(guān)鍵是數(shù)據(jù)組織。此階段是數(shù)據(jù)歸檔級(jí)別,所有運(yùn)維數(shù)據(jù)已實(shí)現(xiàn)歸檔,并持久存放,但是無法實(shí)現(xiàn)全局搜索。

數(shù)據(jù)檢索分析(分析)

此階段通過一個(gè)統(tǒng)一平臺(tái)實(shí)現(xiàn)所有運(yùn)維數(shù)據(jù)全局搜索,同時(shí)使用一些適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié),但是無法實(shí)現(xiàn)數(shù)據(jù)多維度關(guān)聯(lián)分析。

數(shù)據(jù)運(yùn)營(預(yù)測(cè))

通過關(guān)聯(lián)所有運(yùn)維數(shù)據(jù),從而分析,解釋原因,實(shí)現(xiàn)事前預(yù)測(cè)功能,同時(shí)也可以關(guān)聯(lián)多項(xiàng)運(yùn)維指標(biāo)進(jìn)行預(yù)測(cè)。

數(shù)據(jù)認(rèn)知(預(yù)防)

通過人工智能手段,不斷進(jìn)行機(jī)器學(xué)習(xí),累積企業(yè)特有的運(yùn)維經(jīng)驗(yàn),形成企業(yè)智能運(yùn)維大腦。

08、金融業(yè)AIOps實(shí)踐典型案例

客戶是一個(gè)國內(nèi)超大型全國性銀行金融機(jī)構(gòu),覆蓋全部銀行對(duì)公對(duì)私業(yè)務(wù),是大型金融機(jī)構(gòu)典型企業(yè)??蛻舻臄?shù)據(jù)中心已經(jīng)實(shí)現(xiàn)了兩地三中心的基礎(chǔ)架構(gòu)和大型金融典型數(shù)據(jù)中心的所有特征。

在建設(shè)智能運(yùn)維的建設(shè)思路上,客戶是走在了國內(nèi)銀行企業(yè)的前列。由數(shù)據(jù)中心副總直接掛帥領(lǐng)導(dǎo)下屬業(yè)務(wù)支持處,系統(tǒng)運(yùn)維處,安全網(wǎng)絡(luò)處,設(shè)備維護(hù)處,全條線覆蓋。自上而下,高屋建瓴的進(jìn)行新一代智能數(shù)據(jù)中心體系化建設(shè)。

在2016年啟動(dòng)智能運(yùn)維平臺(tái)項(xiàng)目的建設(shè)工作,借助基于人工智能的智能運(yùn)維(AIOps)技術(shù),初步建立了數(shù)據(jù)中心的“運(yùn)維大腦”,以保障業(yè)務(wù)的安全、穩(wěn)定運(yùn)行。

涉及到數(shù)據(jù)中心業(yè)務(wù)需求,設(shè)計(jì)各運(yùn)維應(yīng)用場(chǎng)景,通過開發(fā)、建模實(shí)現(xiàn)大數(shù)據(jù)在運(yùn)維輔助告警、日志異常檢測(cè)、系統(tǒng)運(yùn)行趨勢(shì)分析以及業(yè)務(wù)增益等方面的運(yùn)用并進(jìn)行靈活展現(xiàn)。從AB級(jí)系統(tǒng)中挑選交易量大、銀聯(lián)可用率影響較高的8套重點(diǎn)系統(tǒng),約800分區(qū)進(jìn)行試點(diǎn)上線。

基于Hadoop,在充分考慮到各組件使用場(chǎng)景基礎(chǔ)上,充分利用kafka消息總線,通過Spark進(jìn)行流式處理,有機(jī)結(jié)合Hive、Hbase、Redis、Elasticsearch等當(dāng)前主流組件的特性,應(yīng)對(duì)每日TB級(jí)增量數(shù)據(jù),提供秒級(jí)響應(yīng)體驗(yàn)。

隨著業(yè)務(wù)的擴(kuò)張及日益的多樣化,IT環(huán)境中的各類設(shè)備也成倍數(shù)的增加,并且大量應(yīng)用系統(tǒng)間相互共享資源,包括但不限于硬件,軟件,網(wǎng)絡(luò)等,導(dǎo)致IT系統(tǒng)中應(yīng)用及相應(yīng)架構(gòu)上事故的診斷需要進(jìn)行復(fù)雜且深入的調(diào)查,既耗費(fèi)時(shí)間,又占用大量資源,甚至造成大量的經(jīng)濟(jì)損失。

在數(shù)據(jù)中心業(yè)務(wù)和運(yùn)維價(jià)值觀點(diǎn)看,通過智能運(yùn)維平臺(tái)的使用,統(tǒng)一采集、管理業(yè)務(wù)相關(guān)的各類運(yùn)行狀態(tài)數(shù)據(jù)和底層機(jī)器日志,結(jié)合算法對(duì)異常點(diǎn)的預(yù)警,統(tǒng)一展示給運(yùn)維人員,對(duì)故障根因的分析判斷帶來了極大便利,整體縮短了故障排查的時(shí)間。

成功案例顯示,AlOps的核心價(jià)值是:

?故障排查時(shí)減少90%的數(shù)據(jù)收集時(shí)間;

?數(shù)據(jù)庫容量預(yù)測(cè)的準(zhǔn)確率可達(dá)99.5%,提高資源的利用率;

比常規(guī)日志監(jiān)控多發(fā)現(xiàn)30%隱患異常日志;

?提前10分鐘,主動(dòng)預(yù)警系統(tǒng)的可用性故障;

?將故障根因定位原來人工定位需要的8小時(shí),縮短到30分鐘;

?根據(jù)實(shí)際業(yè)務(wù)動(dòng)態(tài)伸縮分配資源,減少30%資源成本。

本文摘錄自IBM《金融行業(yè)智能運(yùn)維AIOps實(shí)施建議白皮書》

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論