實(shí)戰(zhàn)丨大型銀行網(wǎng)絡(luò)運(yùn)維自動化思路與實(shí)踐

金融電子化
李之森
在網(wǎng)絡(luò)資產(chǎn)的管理方面,開展網(wǎng)絡(luò)資產(chǎn)的數(shù)據(jù)標(biāo)準(zhǔn)化工作,以統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)實(shí)現(xiàn)對整體網(wǎng)絡(luò)資產(chǎn)的管理。其目標(biāo)是實(shí)現(xiàn)對整體網(wǎng)絡(luò)資產(chǎn)的梳理和調(diào)用,避免出現(xiàn)資產(chǎn)信息在不同運(yùn)維系統(tǒng)中數(shù)據(jù)的差異,造成網(wǎng)絡(luò)運(yùn)維過程中信息不一致、數(shù)據(jù)不統(tǒng)一等問題。

隨著金融科技發(fā)展的不斷變革,金融行業(yè)的網(wǎng)絡(luò)整體規(guī)劃和建設(shè)思路也在不斷追趕新時代銀行業(yè)務(wù)的發(fā)展需要。網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)應(yīng)用技術(shù)的不斷提升,都對大型銀行網(wǎng)絡(luò)的日常運(yùn)維提出了更多的挑戰(zhàn)。跟緊銀行業(yè)數(shù)字化轉(zhuǎn)型以及金融科技一體化運(yùn)維大潮,網(wǎng)絡(luò)運(yùn)維(NetOps)正在著力于引入最新的統(tǒng)一化、規(guī)范化、自動化運(yùn)維技術(shù),用于更好的保障金融科技系統(tǒng)的穩(wěn)定運(yùn)行。

銀行作為對IT系統(tǒng)高可用性要求極高的金融機(jī)構(gòu),對網(wǎng)絡(luò)架構(gòu)的可用性、可靠性等方面提出了更多的挑戰(zhàn)。大型金融網(wǎng)絡(luò)運(yùn)維,涉及到資產(chǎn)管理、容量管理、性能管理、變更管理、應(yīng)急保障等多方面的管理需求,都占用了大量的運(yùn)維資源和人力成本。如何讓運(yùn)維人員將有限的精力專注于更有意義及挑戰(zhàn)性的工作中,是網(wǎng)絡(luò)運(yùn)維自動化一貫堅持的思路和方向。作為網(wǎng)絡(luò)自動化建設(shè)的實(shí)踐者,我們在摸索中不斷前進(jìn),從以下幾個方面的進(jìn)行了實(shí)踐。

化繁為簡,構(gòu)建統(tǒng)一的網(wǎng)絡(luò)資產(chǎn)數(shù)據(jù)池

在網(wǎng)絡(luò)資產(chǎn)的管理方面,開展網(wǎng)絡(luò)資產(chǎn)的數(shù)據(jù)標(biāo)準(zhǔn)化工作,以統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)實(shí)現(xiàn)對整體網(wǎng)絡(luò)資產(chǎn)的管理。其目標(biāo)是實(shí)現(xiàn)對整體網(wǎng)絡(luò)資產(chǎn)的梳理和調(diào)用,避免出現(xiàn)資產(chǎn)信息在不同運(yùn)維系統(tǒng)中數(shù)據(jù)的差異,造成網(wǎng)絡(luò)運(yùn)維過程中信息不一致、數(shù)據(jù)不統(tǒng)一等問題。

針對網(wǎng)絡(luò)設(shè)備資產(chǎn),開展統(tǒng)一的設(shè)備監(jiān)控管理成熟度模型建設(shè),針對不同功能類型、部署區(qū)域、使用場景的網(wǎng)絡(luò)設(shè)備,按照運(yùn)行監(jiān)控、網(wǎng)絡(luò)連通、服務(wù)管理三個維度計算其管理成熟度評分及監(jiān)控定級,最終實(shí)現(xiàn)設(shè)備的標(biāo)準(zhǔn)化監(jiān)控配置和全生命周期的資產(chǎn)數(shù)據(jù)管理。解決了網(wǎng)絡(luò)設(shè)備在日常運(yùn)維過程中出現(xiàn)“脫管”或“半脫管”的問題,并提升了不同網(wǎng)絡(luò)運(yùn)維系統(tǒng)對網(wǎng)絡(luò)設(shè)備資產(chǎn)的數(shù)據(jù)交互及監(jiān)控管理需求。對于網(wǎng)絡(luò)線路資產(chǎn),采取統(tǒng)一的線路資產(chǎn)數(shù)據(jù)標(biāo)準(zhǔn)化管理,實(shí)現(xiàn)線路資產(chǎn)與設(shè)備、應(yīng)用信息的關(guān)聯(lián)互通,提升在網(wǎng)絡(luò)運(yùn)維過程中相關(guān)信息傳遞的一致性及準(zhǔn)確性。對于配置及參數(shù)資產(chǎn),采取智能化分布式的配置參數(shù)采集及管理機(jī)制,在保證網(wǎng)絡(luò)配置及參數(shù)的數(shù)據(jù)安全性同時,又實(shí)現(xiàn)了網(wǎng)絡(luò)配置動態(tài)對比及關(guān)聯(lián)分析的功能,提升了以“靜”制“動”的運(yùn)維監(jiān)控能力。

針對網(wǎng)絡(luò)邏輯資產(chǎn),開展統(tǒng)一的網(wǎng)絡(luò)CMDB信息采集及更新機(jī)制。通過對不同類型的網(wǎng)絡(luò)設(shè)備進(jìn)行適配,采取SNMP,命令行登陸,接口登陸等方式,獲取相關(guān)網(wǎng)絡(luò)設(shè)備的數(shù)據(jù)信息,將相關(guān)信息通過統(tǒng)一的規(guī)則進(jìn)行關(guān)聯(lián),實(shí)現(xiàn)對整體銀行網(wǎng)絡(luò)內(nèi)IP、ARP、MAC接口數(shù)據(jù),訪問控制信息,應(yīng)用系統(tǒng)信息,網(wǎng)絡(luò)地址及性能容量、設(shè)備資產(chǎn)配置容量、機(jī)房布線容量信息的大集中,實(shí)現(xiàn)了對整體網(wǎng)絡(luò)資產(chǎn)情況的一手掌握。

破釜沉舟,打造網(wǎng)絡(luò)變更的“人工+智能”

銀行網(wǎng)絡(luò)的特點(diǎn)就是安全運(yùn)維顆粒度及精細(xì)度程度高。在最小化嚴(yán)格化控制架構(gòu)下,運(yùn)維過程中網(wǎng)絡(luò)人員將面對每日數(shù)以百計的網(wǎng)絡(luò)變更及調(diào)整,相關(guān)的變更從正常的變更投產(chǎn)、測試開發(fā)到最普遍的用戶域訪問控制,都需要投入大量的人力進(jìn)行變更內(nèi)容的評審和準(zhǔn)備。在安全合規(guī)的前提下,將運(yùn)維人員從整體的變更流程及變更內(nèi)容的準(zhǔn)備中解脫出來,是變更自動化急需實(shí)現(xiàn)的目標(biāo)。

在變更流程的優(yōu)化方面,我們嘗試打破跨系統(tǒng)間的技術(shù)壁壘,潤滑整合流程平臺與運(yùn)維平臺之間的信息傳遞機(jī)制,將變更整體的申請、審核、分配、實(shí)施、復(fù)核的全周期流程進(jìn)行串聯(lián),結(jié)合變更內(nèi)容與網(wǎng)絡(luò)資產(chǎn)數(shù)據(jù)的關(guān)聯(lián)分析,實(shí)現(xiàn)變更內(nèi)容的自動化解析和數(shù)據(jù)生成。運(yùn)維人員在一個頁面中可以完成整體變更流程的流轉(zhuǎn),以及變更內(nèi)容的智能分析及腳本自動化生成工作。對于涉及重要生產(chǎn)網(wǎng)絡(luò)區(qū)域的標(biāo)準(zhǔn)變更內(nèi)容,通過自動化的方式實(shí)現(xiàn)對變更腳本的生成,運(yùn)維人員僅需對自動化腳本進(jìn)行審核,并通過相關(guān)的合規(guī)審計渠道進(jìn)行變更內(nèi)容的下發(fā)即可完成變更實(shí)施工作。對于開發(fā)測試、用戶接入等非生產(chǎn)網(wǎng)絡(luò)區(qū)域的變更,可通過自動化變更審核后即實(shí)施下發(fā)的方式實(shí)現(xiàn),既提高了網(wǎng)絡(luò)變更流轉(zhuǎn)的效率,也降低的網(wǎng)絡(luò)運(yùn)維人員重復(fù)性工作的強(qiáng)度。此外,為了滿足多活多中心應(yīng)用系統(tǒng)架構(gòu)部署的網(wǎng)絡(luò)訪問需求,我們完善了跨數(shù)據(jù)中心的網(wǎng)絡(luò)變更一體化流程實(shí)現(xiàn),通過系統(tǒng)CMDB智能判斷,系統(tǒng)開發(fā)及運(yùn)維人員無需知道對應(yīng)地址的所屬數(shù)據(jù)中心區(qū)域,即可實(shí)現(xiàn)一次申請,多地開通的網(wǎng)絡(luò)變更自動化,提升了整體網(wǎng)絡(luò)自服務(wù)的能力和水平。

在變更的合規(guī)審計方面,通過實(shí)現(xiàn)對整體變更數(shù)據(jù)的標(biāo)準(zhǔn)化解析和智能化分析,在日常的運(yùn)維過程中可快速回溯相關(guān)變更內(nèi)容及數(shù)據(jù),以及對應(yīng)網(wǎng)絡(luò)設(shè)備策略的命中情況,提高運(yùn)維人員的問題分析和定位排障效率,加速整體事件處理的效率和效力,為網(wǎng)絡(luò)安全生產(chǎn)保駕護(hù)航。

擁抱多元,提升網(wǎng)絡(luò)運(yùn)維監(jiān)管控思路

隨著網(wǎng)絡(luò)規(guī)模及架構(gòu)技術(shù)復(fù)雜度不斷提升,傳統(tǒng)的網(wǎng)絡(luò)監(jiān)控模式已無法滿足海量的日志處理及高并發(fā)的設(shè)備數(shù)據(jù)采集需求。在事件分析及定位方面,快速交付運(yùn)維人員相關(guān)的設(shè)備告警日志、性能數(shù)據(jù)趨勢、歷史關(guān)聯(lián)信息,以及實(shí)現(xiàn)網(wǎng)絡(luò)告警信息與其他專業(yè)條線告警信息的關(guān)聯(lián)整合,是新時代網(wǎng)絡(luò)運(yùn)維的里程碑。

在信息的采集方面,擁抱業(yè)界開源的運(yùn)維監(jiān)控手段,一方面實(shí)現(xiàn)了分布網(wǎng)絡(luò)設(shè)備信息的高頻采集,通過結(jié)合主流的網(wǎng)絡(luò)運(yùn)維監(jiān)控算法,形成智能的網(wǎng)絡(luò)監(jiān)控定義,實(shí)現(xiàn)了對整體網(wǎng)絡(luò)架構(gòu)及設(shè)備運(yùn)行狀態(tài)的實(shí)時信息采集及感知。此外,利用主流高并發(fā)流處理技術(shù),實(shí)現(xiàn)對海量網(wǎng)絡(luò)設(shè)備日志的智能解析及關(guān)聯(lián)分析,提升了整體網(wǎng)絡(luò)監(jiān)控的處理及分析能力。另一方面,加強(qiáng)旁路監(jiān)控的運(yùn)維輔助能力,通過使用多點(diǎn)部署全流量采集探針的方式,形成整個網(wǎng)絡(luò)通信線路的多段網(wǎng)絡(luò)流量分析鏈,幫助運(yùn)維人員從多個維度實(shí)現(xiàn)對相應(yīng)告警的智能分析,解決傳統(tǒng)運(yùn)維監(jiān)控中關(guān)聯(lián)數(shù)據(jù)缺失,輔助排障信息不足的問題。

在監(jiān)控的監(jiān)控展示方面,通過使用統(tǒng)一的運(yùn)維監(jiān)控平臺,實(shí)現(xiàn)了多運(yùn)維條線的CMDB數(shù)據(jù)上收及整合,解決了一鍵獲取告警及關(guān)聯(lián)數(shù)據(jù)信息,跨運(yùn)維部門間監(jiān)控告警關(guān)聯(lián)分析,應(yīng)用信息與網(wǎng)絡(luò)數(shù)據(jù)對接等問題。

在運(yùn)維監(jiān)控的輔助方面,結(jié)合實(shí)際的網(wǎng)絡(luò)運(yùn)維場景,實(shí)現(xiàn)了網(wǎng)絡(luò)狀態(tài)比對、歷史數(shù)據(jù)分析、快速配置及參數(shù)對比、一鍵問題設(shè)備隔離等操作運(yùn)維場景的自動化落地,幫助運(yùn)維人員在監(jiān)控中更快的實(shí)現(xiàn)問題的定位及處置。此外,面對疫情及其他極端運(yùn)維情況,我們嘗試性的開展了現(xiàn)場運(yùn)維監(jiān)控+移動運(yùn)維輔助+遠(yuǎn)程運(yùn)維支撐的運(yùn)維管理模式,在遇到復(fù)雜問題時,通過群策群力的方式,幫助相關(guān)值班人員迅速進(jìn)行問題的分析和定位,并協(xié)助其進(jìn)行整體的故障排除及處置。

緊跟時代,提升智能網(wǎng)絡(luò)自服務(wù)能力

隨著網(wǎng)絡(luò)技術(shù)的不斷演進(jìn),數(shù)據(jù)中心級SDN技術(shù)及廣域網(wǎng)SRv6技術(shù)已逐步在銀行網(wǎng)絡(luò)架構(gòu)中落地。在不斷提升網(wǎng)絡(luò)自身的健壯性及技術(shù)能力的同時,實(shí)現(xiàn)網(wǎng)絡(luò)新技術(shù)與其他系統(tǒng)及應(yīng)用技術(shù)的融合,是新的智能網(wǎng)絡(luò)管理的機(jī)遇和挑戰(zhàn)。

在基礎(chǔ)服務(wù)交付方面,數(shù)據(jù)中心層面實(shí)現(xiàn)新SDN架構(gòu)的落地既實(shí)現(xiàn)了對整體網(wǎng)絡(luò)資源的整合及虛擬化支撐,也實(shí)現(xiàn)了對大型銀行網(wǎng)絡(luò)架構(gòu)下傳統(tǒng)系統(tǒng)及云平臺的平滑支撐。在廣域網(wǎng)絡(luò)上,通過實(shí)現(xiàn)了更先進(jìn)的分段路由(Segment Routing)能力,從技術(shù)上達(dá)成了基于應(yīng)用系統(tǒng)層面的網(wǎng)絡(luò)通信及災(zāi)備保障,進(jìn)一步提升了總、分行之間的網(wǎng)絡(luò)傳輸調(diào)度及應(yīng)急能力。在應(yīng)用系統(tǒng)支撐方面,進(jìn)一步實(shí)現(xiàn)網(wǎng)絡(luò)對應(yīng)用開發(fā)的友好性。跳出網(wǎng)絡(luò)看網(wǎng)絡(luò),即站在應(yīng)用系統(tǒng)的視角來提升網(wǎng)絡(luò)對應(yīng)用支撐的能力,通過網(wǎng)絡(luò)的智能化服務(wù)能力,幫助應(yīng)用系統(tǒng)在日常運(yùn)行過程中發(fā)現(xiàn)可能存在的問題,最大化的規(guī)避系統(tǒng)運(yùn)行中可能存在的不穩(wěn)定因素,提升網(wǎng)絡(luò)網(wǎng)絡(luò)智能自服務(wù)能力。此外,在不斷完善網(wǎng)絡(luò)自己的運(yùn)維體系建設(shè)的同時,我們已經(jīng)開展了基于應(yīng)用的網(wǎng)絡(luò)流量智能調(diào)度,基于流量的應(yīng)用交易關(guān)聯(lián)分析,重要網(wǎng)絡(luò)服務(wù)的分布式網(wǎng)絡(luò)資源分配和監(jiān)控,網(wǎng)絡(luò)安全全自動智能封禁,網(wǎng)絡(luò)運(yùn)維的集中API平臺等方面的建設(shè),并正在嘗試開展系統(tǒng)網(wǎng)絡(luò)的一體化運(yùn)維提升建設(shè),實(shí)現(xiàn)用網(wǎng)絡(luò)而不見網(wǎng)絡(luò),真正做到用網(wǎng)絡(luò)服務(wù)的“大象無形”。

每一代網(wǎng)絡(luò)有每一代網(wǎng)絡(luò)的長征路,當(dāng)今的網(wǎng)絡(luò)運(yùn)維思維已隨著日新月異的IT技術(shù)而不斷更新迭代。大型銀行作為IT技術(shù)的“重度依賴”機(jī)構(gòu),早已站在了金融科技轉(zhuǎn)型的風(fēng)口浪尖。在保障網(wǎng)絡(luò)基礎(chǔ)架構(gòu)穩(wěn)定性的關(guān)鍵性能指標(biāo)的同時,通過網(wǎng)絡(luò)運(yùn)維自動化提升整體網(wǎng)絡(luò)團(tuán)隊的能力,通過網(wǎng)絡(luò)資源的虛擬化實(shí)現(xiàn)網(wǎng)絡(luò)更大的靈活性和擴(kuò)展性,通過“自我革命”實(shí)現(xiàn)網(wǎng)絡(luò)底層對業(yè)務(wù)應(yīng)用系統(tǒng)的服務(wù)輸出,是當(dāng)前網(wǎng)絡(luò)運(yùn)維面臨的新問題和新挑戰(zhàn)。網(wǎng)絡(luò)運(yùn)維現(xiàn)在的本職工作,不僅僅是要提升網(wǎng)絡(luò)的自動化運(yùn)維能力,更需要提升網(wǎng)絡(luò)對業(yè)務(wù)及應(yīng)用系統(tǒng)的持續(xù)交付水平,爭做銀行數(shù)字化轉(zhuǎn)型的領(lǐng)頭羊、排頭兵。

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論