金融行業(yè)基于“變化”的運(yùn)行風(fēng)險(xiǎn)建立感知能力及應(yīng)對(duì)機(jī)制

相比其他行業(yè),證券業(yè)對(duì)業(yè)務(wù)連續(xù)性事件容忍度極低。當(dāng)出現(xiàn)客戶權(quán)益類(lèi)風(fēng)險(xiǎn)事件時(shí),給運(yùn)維留下的處置時(shí)間極短,多一秒都可能帶來(lái)客戶巨大損失,所以通常比別的行業(yè)更強(qiáng)調(diào)事前更快地發(fā)現(xiàn)潛在風(fēng)險(xiǎn),并在風(fēng)險(xiǎn)未產(chǎn)生業(yè)務(wù)影響前消滅風(fēng)險(xiǎn)。

本文來(lái)自微信公眾號(hào)“twt企業(yè)IT社區(qū)”,作者/彭華盛。

相比其他行業(yè),證券業(yè)對(duì)業(yè)務(wù)連續(xù)性事件容忍度極低。當(dāng)出現(xiàn)客戶權(quán)益類(lèi)風(fēng)險(xiǎn)事件時(shí),給運(yùn)維留下的處置時(shí)間極短,多一秒都可能帶來(lái)客戶巨大損失,所以通常比別的行業(yè)更強(qiáng)調(diào)事前更快地發(fā)現(xiàn)潛在風(fēng)險(xiǎn),并在風(fēng)險(xiǎn)未產(chǎn)生業(yè)務(wù)影響前消滅風(fēng)險(xiǎn)。而以打補(bǔ)丁方式對(duì)已知異常點(diǎn)加監(jiān)控項(xiàng)對(duì)于風(fēng)險(xiǎn)發(fā)現(xiàn)的覆蓋面越來(lái)越力不從心,同時(shí)運(yùn)維還需要在穩(wěn)定的人力資源下加強(qiáng)對(duì)系統(tǒng)風(fēng)險(xiǎn)的把控能力,所以需要尋求一種新的運(yùn)行風(fēng)險(xiǎn)管理工作方法。本篇討論風(fēng)險(xiǎn)感知,從面的視角,主動(dòng)地構(gòu)建信息系統(tǒng)風(fēng)險(xiǎn)的感知能力與風(fēng)險(xiǎn)應(yīng)對(duì)機(jī)制。

1.先思考幾個(gè)問(wèn)題

●在構(gòu)建系統(tǒng)運(yùn)行風(fēng)險(xiǎn)感知能力時(shí),需要重點(diǎn)思考一些問(wèn)題:

●信息系統(tǒng)的運(yùn)行風(fēng)險(xiǎn)由什么引發(fā)?

●運(yùn)行風(fēng)險(xiǎn)通常在哪些時(shí)間段出現(xiàn)?

●風(fēng)險(xiǎn)的發(fā)現(xiàn)方法如何轉(zhuǎn)換成“指標(biāo)+風(fēng)險(xiǎn)策略”模型?

●如何將一線運(yùn)維家發(fā)現(xiàn)風(fēng)險(xiǎn)的經(jīng)驗(yàn)沉淀下來(lái)?

●現(xiàn)有風(fēng)險(xiǎn)發(fā)現(xiàn)方案是什么?

●是否可以利用算法、實(shí)時(shí)計(jì)算、海量數(shù)據(jù)分析等技術(shù)手段重塑風(fēng)險(xiǎn)的發(fā)現(xiàn)能力?

●風(fēng)險(xiǎn)發(fā)現(xiàn)后如何識(shí)別為真正的風(fēng)險(xiǎn)?

●識(shí)別為真正風(fēng)險(xiǎn)后如何跟進(jìn)風(fēng)險(xiǎn)的應(yīng)對(duì)措施?

●如何將主動(dòng)的風(fēng)險(xiǎn)發(fā)現(xiàn)、防范、解決量化為運(yùn)營(yíng)效能?

上述的問(wèn)題重點(diǎn)圍繞系統(tǒng)運(yùn)行風(fēng)險(xiǎn)的如何發(fā)生、如何發(fā)現(xiàn)、如何識(shí)別、如何應(yīng)對(duì)四個(gè)步驟,問(wèn)題之間有遞進(jìn)的關(guān)系。

2.“變化”是運(yùn)行發(fā)生的關(guān)鍵因素

在反思生產(chǎn)故障時(shí),我們會(huì)發(fā)現(xiàn)很多因素都可能引發(fā)風(fēng)險(xiǎn)事件,比如我之前梳理的一個(gè)魚(yú)骨圖:

640 (1).png

如果將這些因素進(jìn)一步歸納,可以發(fā)現(xiàn)“變化”是引發(fā)風(fēng)險(xiǎn)的關(guān)鍵因素,找到生產(chǎn)環(huán)境的“變化”來(lái)源,持續(xù)地對(duì)“變化”來(lái)源進(jìn)行感知,將有助于在風(fēng)險(xiǎn)源頭進(jìn)行防控。從運(yùn)維可控的工作范圍看,可以從計(jì)劃性與非計(jì)劃性兩個(gè)角度梳理一些“變化”的來(lái)源:

(1)計(jì)劃性的“變化”

●此處的“計(jì)劃性”指針對(duì)運(yùn)維團(tuán)隊(duì)可以把控的“計(jì)劃性”操作,通常圍繞“變更管理”,比如:

●基礎(chǔ)設(shè)施、網(wǎng)絡(luò)、計(jì)算資源變更,比如:切換、微碼、演練、設(shè)備接入、線路割接等;

●平臺(tái)系統(tǒng)軟件變更,比如:平臺(tái)補(bǔ)丁、版本升級(jí)、漏洞掃描等;

●應(yīng)用系統(tǒng)變更,比如:軟件版本迭代、數(shù)據(jù)變更、配置發(fā)布等;

●數(shù)據(jù)維護(hù),比如:技術(shù)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、批處理數(shù)據(jù)等;

●參數(shù)維護(hù),比如:技術(shù)、業(yè)務(wù)參數(shù),用戶、賬戶維護(hù)等;

●上游依賴(lài)變更,比如:上游節(jié)點(diǎn)變更、外部依賴(lài)變更等;

●下游系統(tǒng)變更,比如:下游對(duì)上游請(qǐng)求大幅度增加;

●其他操作,比如:證書(shū)更換、服務(wù)重啟、機(jī)器重啟、應(yīng)急演練、縮擴(kuò)容等;

●……

(2)非計(jì)劃性的“變化”

相應(yīng)的,非計(jì)劃性“變化”針對(duì)運(yùn)維無(wú)法把控的行為,比如:

●業(yè)務(wù)推廣活動(dòng);

●市場(chǎng)行情變化;

●業(yè)務(wù)功能首次發(fā)起;

●業(yè)務(wù)報(bào)錯(cuò)的首次出現(xiàn);

●業(yè)務(wù)參數(shù)配置(業(yè)務(wù)功能維護(hù))調(diào)整;

●業(yè)務(wù)維護(hù)、導(dǎo)入、執(zhí)行大量數(shù)據(jù)操作;

●下游系統(tǒng)調(diào)用量增大;

●上游基礎(chǔ)設(shè)施、平臺(tái)軟件、應(yīng)用系統(tǒng)異常;

●證書(shū)過(guò)期、自增長(zhǎng)ID達(dá)到閥值;

●……

3.如何落地發(fā)現(xiàn)“變化”的策略

梳理變化來(lái)源因素后,下一步是如何感知發(fā)現(xiàn)變化的發(fā)生。由于“變化”有變化前與變化后兩個(gè)比較面,發(fā)現(xiàn)風(fēng)險(xiǎn)的策略可以歸納為“比不同”。相比設(shè)置固定閥值的監(jiān)控策略,采用“比不同”的變化感知方案的策略是規(guī)律的,在一定程度可以減少人工經(jīng)驗(yàn)對(duì)每個(gè)監(jiān)控點(diǎn)配置不同監(jiān)控策略的操作步驟,達(dá)到從面角度的感知能力。

從工具層面,一方面需要將具體的變化點(diǎn)的狀態(tài)轉(zhuǎn)換成數(shù)據(jù),保存不同時(shí)間切面的數(shù)據(jù),并對(duì)多個(gè)時(shí)間切面的數(shù)據(jù)進(jìn)行比較,發(fā)現(xiàn)“變化”;另一方面需要將專(zhuān)家經(jīng)驗(yàn)不斷地融入到感知策略的調(diào)優(yōu)上,調(diào)整通用策略與實(shí)際異常發(fā)現(xiàn)的準(zhǔn)確性。

為了落地比不同的策略,還要確認(rèn)“變化”的時(shí)間點(diǎn)或時(shí)間段,可選用特定時(shí)點(diǎn)觸發(fā),或采用循環(huán)調(diào)用的方式觸發(fā)。

對(duì)于計(jì)劃性的“變化”,通常時(shí)間可控,可以考慮在觸發(fā)計(jì)劃性操作后對(duì)變更執(zhí)行前后的“變化”進(jìn)行監(jiān)測(cè),制定相關(guān)策略,比如:

●對(duì)關(guān)鍵配置、程序制品的文件進(jìn)行版本變化比對(duì);

●對(duì)參數(shù)的數(shù)值進(jìn)行變化比對(duì);

●抽象關(guān)鍵黃金指標(biāo),在變更前后觸發(fā)指標(biāo)變化的分析;

●將計(jì)劃變更操作對(duì)象、下游關(guān)聯(lián)對(duì)象、異常告警等信息相關(guān)聯(lián),建立變化與異常的關(guān)聯(lián)。

對(duì)于非計(jì)劃性的“變化”,可能來(lái)自業(yè)務(wù)、外部系統(tǒng)、外部依賴(lài)等因素,所運(yùn)維對(duì)觸發(fā)“變化”的操作不可控,需要區(qū)別于計(jì)劃性“變化”在特定時(shí)點(diǎn)或時(shí)段執(zhí)行感知策略,而是需要采用循環(huán)調(diào)度的多時(shí)間切面地“比不同”感知。比如:

●將業(yè)務(wù)推廣活動(dòng)、市場(chǎng)行情變化觸發(fā)的業(yè)務(wù)量指標(biāo)的變化進(jìn)行感知;

●將業(yè)務(wù)指標(biāo)增加觸發(fā)的性能指標(biāo)進(jìn)行感知;

●對(duì)關(guān)鍵功能涉及的接口、功能號(hào)、交易碼的首次執(zhí)行進(jìn)行感知;

●對(duì)應(yīng)用日志的首次報(bào)錯(cuò)進(jìn)行感知;

●對(duì)關(guān)鍵的業(yè)務(wù)參數(shù)配置行為進(jìn)行感知;

●對(duì)涉及批量操作接口或功能號(hào)調(diào)用次數(shù)進(jìn)行感知;

●系統(tǒng)異常后,自動(dòng)知會(huì)下游系統(tǒng)或節(jié)點(diǎn)。

另外,結(jié)合最近在AIOps上的實(shí)踐,“算法+平臺(tái)+數(shù)據(jù)”的優(yōu)勢(shì)在異常發(fā)現(xiàn)上有其特別的優(yōu)勢(shì)。對(duì)于“比不同”的感知策略方案,除了已知專(zhuān)家經(jīng)驗(yàn)規(guī)則的沉淀,還需要基于數(shù)據(jù)驅(qū)動(dòng)的思維,利用AIOps在精準(zhǔn)性、大數(shù)據(jù)量、大計(jì)算量、實(shí)時(shí)計(jì)算、算法上的綜合優(yōu)勢(shì),實(shí)現(xiàn)通用的異常發(fā)現(xiàn)能力,比如發(fā)現(xiàn)日志中首次報(bào)錯(cuò)、業(yè)務(wù)與性能指標(biāo)的突增突減等變化。

4.如何識(shí)別“變化”后的風(fēng)險(xiǎn)

運(yùn)行風(fēng)險(xiǎn)感知并非技術(shù)平臺(tái)的實(shí)現(xiàn),還需要結(jié)合具體的工作機(jī)制,才能真正落地,并發(fā)揮價(jià)值。

(1)融入現(xiàn)有工作流程機(jī)制

運(yùn)行風(fēng)險(xiǎn)感知工作可以考慮與現(xiàn)有工作機(jī)制相結(jié)合。在一些常態(tài)化工作任務(wù)執(zhí)行時(shí)點(diǎn)觸發(fā),比如在盤(pán)前巡檢、清算批次結(jié)束、節(jié)假日結(jié)束等時(shí)點(diǎn),能夠更好落實(shí)新增的風(fēng)險(xiǎn)感知工作。同時(shí),風(fēng)險(xiǎn)感知發(fā)現(xiàn)的風(fēng)險(xiǎn)可以融入到統(tǒng)一告警中,觸發(fā)監(jiān)控告警的處理流程中。

(2)建立新的風(fēng)險(xiǎn)識(shí)別工作機(jī)制

傳統(tǒng)監(jiān)控是基于已知問(wèn)題發(fā)現(xiàn)的規(guī)則,對(duì)某個(gè)異常點(diǎn)設(shè)置監(jiān)控閥值,假設(shè)監(jiān)控策略準(zhǔn)確情況下,告警的事件轉(zhuǎn)化率需要越來(lái)越高。而基于“變化”發(fā)現(xiàn)的風(fēng)險(xiǎn)可能包括高低風(fēng)險(xiǎn)事件,高風(fēng)險(xiǎn)可以融入到原有監(jiān)控告警的處理機(jī)制,但低風(fēng)險(xiǎn)事件的處置可能需要區(qū)別處理,比如以下兩個(gè)示例。

示例1:系統(tǒng)交易量、處理時(shí)延提高幾倍,但系統(tǒng)容量水位與峰值相差較高。

案例中黃金指標(biāo)出現(xiàn)較大波動(dòng),還未引發(fā)全局性的性能問(wèn)題,雖暫未影響業(yè)務(wù),但通過(guò)運(yùn)維專(zhuān)家分析變化的原因,可以了解是業(yè)務(wù)計(jì)劃性的業(yè)務(wù)推廣行為,還是下游系統(tǒng)在未知會(huì)上游系統(tǒng)增大批量調(diào)用的行為等,以幫助運(yùn)維了解變化行為是否合理,是否需要優(yōu)化管理協(xié)同機(jī)制,同時(shí),也能更好的了解系統(tǒng)容量水位變化情況,提前推動(dòng)容量擴(kuò)容與性能調(diào)優(yōu)。

示例2:業(yè)務(wù)功能的首次出現(xiàn)、應(yīng)用日志出現(xiàn)一個(gè)首次出現(xiàn)的報(bào)錯(cuò)。

案例中首次出現(xiàn)的業(yè)務(wù)、報(bào)錯(cuò)等變化,可能是一種正常的業(yè)務(wù)行為,但通過(guò)分析,可以讓運(yùn)維專(zhuān)家更好地了解系統(tǒng)功能運(yùn)行狀況??偟膩?lái)說(shuō),由于企業(yè)系統(tǒng)越來(lái)越多,架構(gòu)越來(lái)越復(fù)雜,運(yùn)維專(zhuān)家負(fù)責(zé)的系統(tǒng)越來(lái)越多,運(yùn)行數(shù)據(jù)指數(shù)級(jí)增長(zhǎng),系統(tǒng)對(duì)于運(yùn)維專(zhuān)家逐漸往黑盒的狀態(tài)發(fā)展。采用識(shí)別“變化”的方式,了解系統(tǒng),可作為一種聚焦系統(tǒng)運(yùn)行風(fēng)險(xiǎn)的管理方法,納入技術(shù)運(yùn)營(yíng)中,并據(jù)此建立一個(gè)新的工作機(jī)制。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論