漫談5G核心網(wǎng)新運(yùn)維

網(wǎng)優(yōu)雇傭軍
動(dòng)態(tài)的閾值,能夠精準(zhǔn)的發(fā)現(xiàn)網(wǎng)絡(luò)隱性事故,但是實(shí)現(xiàn)運(yùn)維的閉環(huán),還需要智能的對(duì)異常情況進(jìn)行分析,快速找到根因。這里,華為提供了一種多指標(biāo)關(guān)聯(lián)分析功能,如果某個(gè)KPI指標(biāo)異常了,系統(tǒng)可以按照貢獻(xiàn)度去對(duì)相關(guān)的指標(biāo)進(jìn)行排序,工程師可以基于此快速的找到最大貢獻(xiàn)度的KPI,從而快速的定位問題的根因。

核心網(wǎng),是通信網(wǎng)絡(luò)的大腦,承擔(dān)著網(wǎng)絡(luò)全局資源的調(diào)度及管理。進(jìn)入5G時(shí)代,核心網(wǎng)肩上的擔(dān)子更重了,其承載著來自千行百業(yè)的多樣化業(yè)務(wù)需求。如何實(shí)現(xiàn)5G時(shí)代的核心網(wǎng)高效、低成本和高可靠運(yùn)維,成為了運(yùn)營(yíng)商及業(yè)界關(guān)注的焦點(diǎn)。那5G時(shí)代的核心網(wǎng)運(yùn)維有哪些挑戰(zhàn)?又有哪些新變化呢?

5G時(shí)代的核心網(wǎng)運(yùn)維挑戰(zhàn)

運(yùn)維對(duì)象規(guī)模和復(fù)雜性急劇上升——不同于以往4G時(shí)代,5G時(shí)代由于網(wǎng)絡(luò)應(yīng)用深入到多樣化的業(yè)務(wù)場(chǎng)景,網(wǎng)絡(luò)規(guī)模急劇加大。通過切片方式來進(jìn)行業(yè)務(wù)的管理,導(dǎo)致了業(yè)務(wù)也會(huì)更加動(dòng)態(tài)和復(fù)雜,從而讓網(wǎng)絡(luò)管理難度大幅增加;網(wǎng)絡(luò)的管理對(duì)象也急劇增多,除了傳統(tǒng)意義上的運(yùn)營(yíng)商的公網(wǎng),還有各行各業(yè)的行業(yè)用戶專網(wǎng),如何能夠針對(duì)不同對(duì)象合理化,分域的運(yùn)維,基于各個(gè)行業(yè)進(jìn)行SLA保障,也是非常棘手的一個(gè)問題;同時(shí),隨著NFV,微服務(wù)架構(gòu)等技術(shù)的不斷引入,網(wǎng)絡(luò)實(shí)現(xiàn)了分層解耦,按需部署,但同時(shí)也帶來了運(yùn)維復(fù)雜度的上升,故障的定位定界成為了5G時(shí)代運(yùn)維極大的挑戰(zhàn);2/3/4/5G時(shí)代遺留下來多個(gè)獨(dú)立的運(yùn)維入口,也讓原本就復(fù)雜的運(yùn)維工作,變得更加的繁瑣,傳統(tǒng)煙囪式的運(yùn)維團(tuán)隊(duì)和流程模式也因數(shù)據(jù)之間相互隔離,流程的非自動(dòng)化,無法在5G時(shí)代繼續(xù)下去。

人力要求和企業(yè)成本的挑戰(zhàn)——與4G主要面向消費(fèi)者市場(chǎng)不同,5G將賦能千行百業(yè),與各行各業(yè)的生產(chǎn)效率、業(yè)務(wù)創(chuàng)新等緊密相關(guān),這要求5G新業(yè)務(wù)能敏捷上線,業(yè)務(wù)發(fā)布將從原來的幾個(gè)月縮短到幾天,甚至是小時(shí)級(jí),還要求運(yùn)營(yíng)商提供高SLA的網(wǎng)絡(luò)來保障企業(yè)的生產(chǎn)、業(yè)務(wù)等流程高效穩(wěn)定運(yùn)行,否則可能會(huì)給行業(yè)帶來經(jīng)濟(jì)損失,這單靠傳統(tǒng)的人工運(yùn)維模式無法支撐業(yè)務(wù)及網(wǎng)絡(luò)的要求。同時(shí),5G時(shí)代不僅網(wǎng)絡(luò)更復(fù)雜,業(yè)務(wù)更多樣化,伴隨著低時(shí)延應(yīng)用和行業(yè)專網(wǎng)興起,還將有大量MEC邊緣節(jié)點(diǎn)廣泛分布于網(wǎng)絡(luò)的不同位置,這都將新增大量的上站維護(hù)工作量和運(yùn)維成本,因此,如何最大程度減少Opex,是運(yùn)營(yíng)商在5G這個(gè)新戰(zhàn)場(chǎng)上不得不考慮的問題。

如何破除以上挑戰(zhàn)?

讓網(wǎng)絡(luò)像自動(dòng)駕駛汽車一樣,自動(dòng)化,智能化的行駛

在這樣的挑戰(zhàn)背景下,業(yè)界做了很多的探索和嘗試,試圖在方案架構(gòu),運(yùn)維技術(shù),運(yùn)維方式等方面進(jìn)行變革,將自動(dòng)化,智能化引入5G核心網(wǎng)運(yùn)維。有人提出一個(gè)有趣的設(shè)想,我們的網(wǎng)絡(luò)是否可以像自動(dòng)駕駛汽車一樣,在沒有人干預(yù)的情況下,自動(dòng),智能的行駛。這樣的假設(shè)讓業(yè)界產(chǎn)生了很強(qiáng)的共鳴,也展開了無數(shù)的討論,其中比較著名的就是TMF提出的自動(dòng)駕駛網(wǎng)絡(luò)的5層演進(jìn)節(jié)奏,全面詮釋了網(wǎng)絡(luò)在未來10年的演進(jìn)方向。

來源:自動(dòng)駕駛網(wǎng)絡(luò)白皮書

這個(gè)圖將自動(dòng)駕駛網(wǎng)絡(luò)的演進(jìn)分為從level0到level5幾個(gè)級(jí)別,讓我們知道網(wǎng)絡(luò)自動(dòng)化將會(huì)是一個(gè)長(zhǎng)期的目標(biāo),是一個(gè)逐步實(shí)現(xiàn)的過程,其中AI的能力也會(huì)逐步的引入各個(gè)領(lǐng)域?qū)崿F(xiàn)整個(gè)演進(jìn)的轉(zhuǎn)變。

那5G時(shí)代的核心網(wǎng)運(yùn)維如何逐步實(shí)現(xiàn)“自動(dòng)駕駛”呢?

運(yùn)維架構(gòu)轉(zhuǎn)型

首先需要考慮的是運(yùn)維架構(gòu)層面的改變。

眾所周知,存量網(wǎng)絡(luò)的管理系統(tǒng)多且孤立分散,數(shù)據(jù)相互隔離;管理面能力沒有服務(wù)化,無法按需進(jìn)行靈活的部署,導(dǎo)致了底層資源浪費(fèi);傳統(tǒng)管理面和業(yè)務(wù)網(wǎng)元是分離的,這不符合5G時(shí)代核心網(wǎng)網(wǎng)元實(shí)時(shí)控制,本地自治的訴求。為了解決這些問題,就需要在管理面架構(gòu)上進(jìn)行融合,實(shí)現(xiàn)跨域跨代跨平臺(tái)跨層的統(tǒng)一管理。就如華為提供的iMaster MAE-CN方案,非常巧妙的將傳統(tǒng)網(wǎng)管,VNFM LCM,NFVO,NSSMF,MEAO及相關(guān)運(yùn)維工具子系統(tǒng)進(jìn)行融合。一方面,這些組件并不是粗暴式的堆疊,而是以微服務(wù)的方式存在,方便客戶按需部署,另一方面,最重要的是它打通了傳統(tǒng)煙囪式的運(yùn)維體系,讓數(shù)據(jù)可無縫互通,不僅能夠讓日常運(yùn)維操作簡(jiǎn)單許多,更重要的是增加了發(fā)掘數(shù)據(jù)更多價(jià)值的可能性。同時(shí),這些組件都連接著一個(gè)智能的調(diào)度引擎,通過系統(tǒng)而靈活的調(diào)度,實(shí)現(xiàn)從網(wǎng)絡(luò)設(shè)計(jì),部署,到運(yùn)維、優(yōu)化的端到端的管理,而不僅僅是傳統(tǒng)意義上簡(jiǎn)單的運(yùn)維。

AI引入日常監(jiān)控場(chǎng)景——主動(dòng)預(yù)防實(shí)現(xiàn)亞健康狀態(tài)精準(zhǔn)識(shí)別

另一個(gè)非常重要的轉(zhuǎn)變就是技術(shù)的改變。這里,大部分的廠商都嘗試通用引入AI技術(shù),自動(dòng)化,智能化的處理核心網(wǎng)運(yùn)維問題。

熟知核心網(wǎng)運(yùn)維的工程師,一定深有體會(huì),在建網(wǎng)初期,工程師要花費(fèi)大量時(shí)間逐條進(jìn)行上萬個(gè)KPI指標(biāo)對(duì)象的閾值設(shè)置,這個(gè)閾值是根據(jù)以往的專家經(jīng)驗(yàn)進(jìn)行設(shè)置,由于是靜態(tài)的閾值,這就給后續(xù)日常監(jiān)控埋下了可能出現(xiàn)誤報(bào),漏報(bào)異常的情況的隱患,告警的可信度大打折扣。況且不同子網(wǎng)情況不同,子網(wǎng)間這些閾值的設(shè)置無法復(fù)制,工程師只能通過人工的方式,一個(gè)個(gè)子網(wǎng)進(jìn)行設(shè)置。最棘手的是異常檢測(cè)之后的根因分析,工程師需要人工逐條KPI進(jìn)行故障定位,同時(shí)在大量KPI指標(biāo)中篩選出該異常KPI的關(guān)聯(lián)KPI,通過查看關(guān)聯(lián)KPI的測(cè)量值,進(jìn)一步定位異常的原因。這樣全程人工主導(dǎo)的運(yùn)維方式,效率提升真的是難上加難。

那如何通過AI技術(shù)去解放工程師日常的運(yùn)維工作呢?

我們從閾值的設(shè)置入手,看看通過AI如何進(jìn)行智能的KPI的異常檢測(cè)。剛才我們提到,傳統(tǒng)的閾值設(shè)置是基于專家經(jīng)驗(yàn)設(shè)定的靜態(tài)閾值,工作量大,也不準(zhǔn)確,隔上一段時(shí)間,還需要根據(jù)現(xiàn)網(wǎng)的實(shí)際情況進(jìn)行閾值的糾正調(diào)整。這里,華為提出了動(dòng)態(tài)閾值的概念,如何理解呢?首先,有一個(gè)AI的訓(xùn)練模型,每周對(duì)現(xiàn)網(wǎng)歷史數(shù)據(jù)進(jìn)行采樣,通過AI算法持續(xù)的去訓(xùn)練校準(zhǔn)這個(gè)模型。然后,將現(xiàn)網(wǎng)的實(shí)時(shí)KPI數(shù)據(jù)導(dǎo)入訓(xùn)練好的模型中,得到動(dòng)態(tài)閾值范圍,也就是說,當(dāng)網(wǎng)絡(luò)發(fā)生變化時(shí),閾值范圍也會(huì)發(fā)生變化,因此,在網(wǎng)絡(luò)出現(xiàn)異常的早期階段,就會(huì)有潛在的KPI指標(biāo)超過閾值范圍,系統(tǒng)上報(bào)異常。這樣,在某種程度上,可以幫助我們提前發(fā)現(xiàn)網(wǎng)絡(luò)隱患和故障,而不是在主要KPI已經(jīng)異常后去處理故障。

動(dòng)態(tài)的閾值,能夠精準(zhǔn)的發(fā)現(xiàn)網(wǎng)絡(luò)隱性事故,但是實(shí)現(xiàn)運(yùn)維的閉環(huán),還需要智能的對(duì)異常情況進(jìn)行分析,快速找到根因。這里,華為提供了一種多指標(biāo)關(guān)聯(lián)分析功能,如果某個(gè)KPI指標(biāo)異常了,系統(tǒng)可以按照貢獻(xiàn)度去對(duì)相關(guān)的指標(biāo)進(jìn)行排序,工程師可以基于此快速的找到最大貢獻(xiàn)度的KPI,從而快速的定位問題的根因。

AI引入變更操作場(chǎng)景——構(gòu)筑“三道防線”實(shí)現(xiàn)機(jī)器值守

除了日常監(jiān)控場(chǎng)景外,重大變更場(chǎng)景也會(huì)使用AI。

我們知道,在5G時(shí)代,產(chǎn)品版本發(fā)布頻率越來越高。因此,會(huì)進(jìn)行大量的重大操作,如普通升級(jí)、灰度升級(jí)、配置變更、擴(kuò)容等?,F(xiàn)網(wǎng)70%以上的重大事故是由于網(wǎng)絡(luò)變更導(dǎo)致的。一旦異常,對(duì)業(yè)務(wù)和用戶體驗(yàn)影響很大。每年有數(shù)千次的變更,給運(yùn)營(yíng)商帶來了巨大的挑戰(zhàn)。同時(shí),由于人工操作量大,網(wǎng)絡(luò)異常識(shí)別平均耗時(shí)5小時(shí)。導(dǎo)致在業(yè)務(wù)影響增加時(shí),無法提前分析和發(fā)現(xiàn)異常,這樣就錯(cuò)過了解決問題的時(shí)間窗口。

因此,在這種場(chǎng)景下,工程師希望運(yùn)維方案能夠建立變更前、變更中、變更后三道防線,提前規(guī)避風(fēng)險(xiǎn)和問題。

現(xiàn)在,讓我們來看看這個(gè)系統(tǒng)是如何工作的。

首先,在變更前,系統(tǒng)自動(dòng)進(jìn)行在線健康檢查,確保待變更網(wǎng)絡(luò)健康。其次,變更過程中,所有變更準(zhǔn)備和操作均按照規(guī)范自動(dòng)執(zhí)行。例如,在變更前的計(jì)劃中明確每個(gè)操作的結(jié)果。這樣,每一步的操作,都可以有依據(jù),方便變更過程中進(jìn)行對(duì)比。最后,在變更值守階段,需要持續(xù)實(shí)時(shí)監(jiān)控網(wǎng)絡(luò)異常情況。這里,華為利用復(fù)合LSTM神經(jīng)網(wǎng)絡(luò)遞歸生成多指標(biāo)關(guān)聯(lián)分析。其將指標(biāo)分為呼叫類指標(biāo)組、注冊(cè)類指標(biāo)組、接入類指標(biāo)組等。該算法可以訓(xùn)練每個(gè)組,使每個(gè)組可以生成出一個(gè)關(guān)聯(lián)性。當(dāng)某個(gè)異常發(fā)生時(shí),對(duì)應(yīng)群組的關(guān)聯(lián)性就會(huì)發(fā)生改變。這樣就可以快速定位異常指標(biāo)組。再通過KPI貢獻(xiàn)度,識(shí)別出異常KPI。接下來,我們?cè)賮砜纯慈绾慰焖俣ń绠惓|c(diǎn)。其根據(jù)歷史的專家經(jīng)驗(yàn),在系統(tǒng)中預(yù)置了很多故障場(chǎng)景;同時(shí),把告警、日志、KPI等多維度因素作為一個(gè)事件,與預(yù)置場(chǎng)景進(jìn)行匹配,這樣就能快速定界網(wǎng)絡(luò)異常了。這樣就可以幫助我們快速、及時(shí)地定位問題了。

AI的引入,最終實(shí)現(xiàn)從被動(dòng)運(yùn)維到主動(dòng)運(yùn)維轉(zhuǎn)型

以上分享了兩個(gè)引入AI的運(yùn)維場(chǎng)景。不難發(fā)現(xiàn),將AI引入到運(yùn)維的場(chǎng)景后,傳統(tǒng)運(yùn)維方式逐漸發(fā)生了變化。傳統(tǒng)的方式是一種被動(dòng)的運(yùn)維方式,就是當(dāng)故障已經(jīng)出現(xiàn)了,我們才通過各種各樣的系統(tǒng),方法,以及人工的方式,去盡可能快速準(zhǔn)確的進(jìn)行故障定界定位,從而快速恢復(fù)。而AI的引入,讓我們對(duì)運(yùn)維的模式有了新的想法。我們可以基于AI技術(shù)去進(jìn)行主動(dòng)運(yùn)維,也就是說在故障發(fā)生之前,主動(dòng)的識(shí)別網(wǎng)絡(luò)的風(fēng)險(xiǎn),將網(wǎng)絡(luò)的亞健康問題暴露出來,在它變成故障之前就把它處理掉,而不是等亞健康問題變成故障后,才去解決問題。然后再通過AI技術(shù),快速的定位問題,將風(fēng)險(xiǎn)快速識(shí)別。

5G讓網(wǎng)絡(luò)自動(dòng)駕駛成為了焦點(diǎn),而AI的引入加速了網(wǎng)絡(luò)自動(dòng)駕駛的演進(jìn)。未來的5到10年將是網(wǎng)絡(luò)自動(dòng)駕駛快速孵化,演進(jìn)的時(shí)代,讓我們拭目以待。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論