用AI重新定義網(wǎng)絡(luò)交換

至頂網(wǎng)
為了支持智能化網(wǎng)絡(luò)計(jì)算和虛擬化網(wǎng)絡(luò)功能部署,新一代智能交換機(jī)通過(guò)在現(xiàn)有交換機(jī)架構(gòu)的基礎(chǔ)上加入智能交換板以及相應(yīng)的數(shù)據(jù)包處理框架,為用戶提供高性能、高通量、通用化的網(wǎng)絡(luò)服務(wù)軟硬件支撐平臺(tái)。

摘要:為了支持智能化網(wǎng)絡(luò)計(jì)算和虛擬化網(wǎng)絡(luò)功能部署,新一代智能交換機(jī)通過(guò)在現(xiàn)有交換機(jī)架構(gòu)的基礎(chǔ)上加入智能交換板以及相應(yīng)的數(shù)據(jù)包處理框架,為用戶提供高性能、高通量、通用化的網(wǎng)絡(luò)服務(wù)軟硬件支撐平臺(tái)。

作為近些年來(lái)熱門(mén)的研究話題,人工智能(AI)已經(jīng)融入到日常生活的方方面面,一個(gè)AI無(wú)處不在的新時(shí)代已經(jīng)到來(lái)。在分布式計(jì)算機(jī)系統(tǒng)中,無(wú)論是中心云服務(wù)器還是邊緣計(jì)算服務(wù)器都變得更加智能,然而,連接云服務(wù)器與邊緣服務(wù)器并控制著數(shù)據(jù)傳遞的互聯(lián)網(wǎng)本身卻是最后一個(gè)不包含AI的領(lǐng)域之一。在互聯(lián)網(wǎng)設(shè)計(jì)之初,各種硬件設(shè)施異常昂貴,設(shè)計(jì)者認(rèn)為互聯(lián)網(wǎng)應(yīng)只具有最小的傳輸能力,卻從未想過(guò)會(huì)發(fā)展到如今如此龐大的規(guī)模。網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)中的任何細(xì)微調(diào)整都會(huì)產(chǎn)生連鎖反應(yīng),從而可能危及整個(gè)網(wǎng)絡(luò)秩序。

盡管有歷史遺留問(wèn)題,AI浪潮已經(jīng)開(kāi)始沖擊網(wǎng)絡(luò)的某些領(lǐng)域。例如,部署云和大數(shù)據(jù)設(shè)施,通過(guò)收集、分析和推斷與用戶、應(yīng)用程序、設(shè)備或網(wǎng)絡(luò)流量有關(guān)的網(wǎng)絡(luò)數(shù)據(jù)來(lái)進(jìn)行網(wǎng)絡(luò)系統(tǒng)級(jí)集中式智能。除此之外,也有許多研究工作從智能網(wǎng)絡(luò)流量分析和預(yù)測(cè)、智能網(wǎng)絡(luò)資源管理、智能路由規(guī)劃和故障診斷,甚至智能體驗(yàn)質(zhì)量設(shè)置等方面探索AI如何影響網(wǎng)絡(luò)功能。值得注意的是,所有上述智能算法都是在假設(shè)存在運(yùn)行這些算法的中央服務(wù)器或云服務(wù)器的情況下提出的。網(wǎng)絡(luò)內(nèi)智能的缺失不僅浪費(fèi)網(wǎng)絡(luò)帶寬,還使得對(duì)網(wǎng)絡(luò)事件的響應(yīng)速度變慢。為突破AI進(jìn)入網(wǎng)絡(luò)基礎(chǔ)設(shè)施的障礙,同時(shí)又不違反互聯(lián)網(wǎng)基本的“端到端”原則,需要重新設(shè)計(jì)和創(chuàng)新交換機(jī)架構(gòu):將網(wǎng)絡(luò)智能部署在網(wǎng)絡(luò)中間節(jié)點(diǎn)上,以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)事件的在線識(shí)別和網(wǎng)絡(luò)策略的本地執(zhí)行。

智能網(wǎng)絡(luò)時(shí)代的網(wǎng)元平臺(tái)

借力于各類(lèi)高新技術(shù)產(chǎn)業(yè)的發(fā)展以及新型網(wǎng)絡(luò)技術(shù)的提出,將AI融入互聯(lián)網(wǎng)的條件已趨于成熟:存儲(chǔ)以及計(jì)算資源價(jià)格大幅度降低,使得網(wǎng)絡(luò)交換機(jī)可以配備功能強(qiáng)大的CPU甚至是GPU;NFV允許網(wǎng)絡(luò)功能高速開(kāi)發(fā),并且消除了對(duì)專(zhuān)有或特定硬件的依賴;各類(lèi)開(kāi)源深度學(xué)習(xí)平臺(tái)針對(duì)CPU和GPU提供了計(jì)算密集型的AI算法,為AI算法在網(wǎng)絡(luò)內(nèi)部署提供了無(wú)縫的方式。為了支持智能化網(wǎng)絡(luò)計(jì)算和虛擬化網(wǎng)絡(luò)功能部署,新一代智能交換機(jī)通過(guò)在現(xiàn)有交換機(jī)架構(gòu)的基礎(chǔ)上加入智能交換板以及相應(yīng)的數(shù)據(jù)包處理框架,為用戶提供高性能、高通量、通用化的網(wǎng)絡(luò)服務(wù)軟硬件支撐平臺(tái)。

1. 智能交換機(jī)的硬件設(shè)計(jì)

圖 1展示了智能交換機(jī)的邏輯硬件架構(gòu),主要包括交換線卡、管理線卡、網(wǎng)板、背板和智能計(jì)算線卡。其中,背板用于連接主控線卡、網(wǎng)板、交換線卡和風(fēng)扇電源等,提供插卡的供電、數(shù)據(jù)、管理、控制平面的各種通道;交換線卡提供業(yè)務(wù)傳輸?shù)耐獠课锢斫涌?,完成?shù)據(jù)接收和發(fā)送;網(wǎng)板主要負(fù)責(zé)跨接口單板卡之間的數(shù)據(jù)轉(zhuǎn)發(fā)交換,負(fù)責(zé)各接口板之間報(bào)文的交換、分發(fā)、調(diào)度、控制;管理線卡提供設(shè)備的管理和控制功能,根據(jù)用戶的操作指令來(lái)管理系統(tǒng)、監(jiān)視性能,并向用戶反饋設(shè)備運(yùn)行情況;智能計(jì)算線卡接收交換線卡的業(yè)務(wù)數(shù)據(jù),提供通用的計(jì)算存儲(chǔ)資源以及高性能數(shù)據(jù)包抓取、解析、處理框架,根據(jù)部署的網(wǎng)絡(luò)服務(wù)執(zhí)行相應(yīng)的計(jì)算任務(wù)。

圖 1 智能網(wǎng)絡(luò)交換機(jī)的硬件結(jié)構(gòu)

在上述硬件架構(gòu)下,通過(guò)配置ACL規(guī)則可以將業(yè)務(wù)流量從交換線卡,經(jīng)由內(nèi)部交換網(wǎng)板鏡像至智能計(jì)算板。在智能計(jì)算板上利用DPDK的零拷貝、CPU親和性以及大頁(yè)內(nèi)存等特性提供高效的數(shù)據(jù)包抓取與解析處理功能。同時(shí)利用多核CPU的并行特性,提供流模式下的序列處理功能,避免流模式下多核并行的同步操作。為了進(jìn)一步提高數(shù)據(jù)包處理的性能,智能計(jì)算板上還配備了通用GPU,通過(guò)GPU的高并發(fā)特性支持高通量場(chǎng)景下的數(shù)據(jù)包過(guò)濾、正則匹配、特征提取等功能,同時(shí)利用GPU的計(jì)算資源為基于AI的網(wǎng)絡(luò)應(yīng)用提供平臺(tái)。

2. 高性能網(wǎng)絡(luò)流量處理框架

如圖 2所示,智能交換機(jī)的流量處理框架由數(shù)據(jù)平面、知識(shí)平面和管控平面三個(gè)部分組成,完成對(duì)流量感知、學(xué)習(xí)和策略分發(fā)的一體化流程。

圖 2 智能交換機(jī)的軟件框架

數(shù)據(jù)平面主要包括數(shù)據(jù)包捕獲和特征提取兩個(gè)模塊。數(shù)據(jù)包捕獲模塊通過(guò)匹配數(shù)據(jù)包中端口、協(xié)議和IP地址等字段,篩選出屬于同一條流的數(shù)據(jù)包。在高速網(wǎng)絡(luò)中,匹配過(guò)程通常使用多個(gè)線程并行操作。特征提取模塊從原始數(shù)據(jù)包提取包含更多信息的特征數(shù)據(jù),這些特征數(shù)據(jù)包括結(jié)構(gòu)特征,統(tǒng)計(jì)特征和隱含特征。結(jié)構(gòu)特征是指原始數(shù)據(jù)包中包含協(xié)議、IP地址和服務(wù)類(lèi)型等的包頭信息,統(tǒng)計(jì)特征是包括包大小、包間持續(xù)時(shí)間等的統(tǒng)計(jì)特征。隱藏特征是指數(shù)據(jù)包中數(shù)據(jù)的潛在屬性,這些屬性可以被卷積神經(jīng)網(wǎng)絡(luò)提取。

知識(shí)平面是指利用AI算法深入解析來(lái)自數(shù)據(jù)平面的特征數(shù)據(jù),從而分析網(wǎng)絡(luò)實(shí)體和網(wǎng)絡(luò)應(yīng)用的行為。具體來(lái)說(shuō),通過(guò)解析統(tǒng)計(jì)特征,可以實(shí)時(shí)觀測(cè)網(wǎng)絡(luò)動(dòng)態(tài),實(shí)現(xiàn)流量可視化;通過(guò)學(xué)習(xí)不同應(yīng)用程序的不同模式,可以實(shí)現(xiàn)應(yīng)用分類(lèi)功能;通過(guò)學(xué)習(xí)網(wǎng)絡(luò)實(shí)體的正常行為,偏離正常行為即檢測(cè)為異常,可以實(shí)現(xiàn)攻擊檢測(cè)功能;通過(guò)分析網(wǎng)絡(luò)實(shí)體的事件日志,可以實(shí)現(xiàn)故障檢測(cè)功能。

管控平面是指利用知識(shí)平面的分析結(jié)果,對(duì)于不同的流量執(zhí)行不同的控制策略。這些控制策略包括流攔截、轉(zhuǎn)發(fā)調(diào)度和帶寬分配等。流攔截是指丟棄非法數(shù)據(jù)包,從而可以快速防御網(wǎng)絡(luò)攻擊。轉(zhuǎn)發(fā)調(diào)度是指借助交換機(jī)本地主控卡,動(dòng)態(tài)調(diào)整轉(zhuǎn)發(fā)信息庫(kù)(FIB)的轉(zhuǎn)發(fā)端口,它還支持為某些應(yīng)用程序分配帶寬和優(yōu)先級(jí),以滿足特定應(yīng)用的服務(wù)質(zhì)量(QoS)要求。通過(guò)遠(yuǎn)程進(jìn)程調(diào)用(PRC)協(xié)議,網(wǎng)絡(luò)管理者可以靈活地部署他們制定的控制策略。

AI賦能網(wǎng)絡(luò)的應(yīng)用場(chǎng)景

下面是目前人工智能應(yīng)用在網(wǎng)絡(luò)領(lǐng)域的一些典型場(chǎng)景。應(yīng)該說(shuō),將人工智能技術(shù)應(yīng)用于網(wǎng)絡(luò)領(lǐng)域前景非常廣闊,應(yīng)用場(chǎng)景也非常豐富,隨著技術(shù)的進(jìn)一步發(fā)展,場(chǎng)景還會(huì)不斷增多。

1. 智能安全檢測(cè)系統(tǒng)

傳統(tǒng)的基于規(guī)則和特征匹配的安全檢測(cè)方法難以處理加密流量和零日攻擊的檢測(cè)問(wèn)題。AI算法因其特有的泛化能力,基于AI的異常檢測(cè)和攻擊分類(lèi)算法受到了廣泛的研究。此外通過(guò)研究深度學(xué)習(xí)模型增量更新的能力,可以實(shí)現(xiàn)檢測(cè)模型的自我更新,最大程度上減少分析攻擊樣本、提取攻擊特征的人工代價(jià)。圖 3展示了基于深度學(xué)習(xí)的自演進(jìn)安全檢測(cè)框架,通過(guò)初始樣本訓(xùn)練的檢測(cè)器,能夠在部署階段從環(huán)境中檢測(cè)并收集未知攻擊樣本,再利用新樣本更新模型,實(shí)現(xiàn)學(xué)習(xí)與檢測(cè)的閉環(huán)。這一過(guò)程主要包括未知攻擊檢測(cè)和增量學(xué)習(xí)兩個(gè)主要過(guò)程。

圖 3 基于深度學(xué)習(xí)的智能安全檢測(cè)框架

未知攻擊檢測(cè)過(guò)程可以采用貝葉斯神經(jīng)網(wǎng)絡(luò)作為檢測(cè)模型,貝葉斯神經(jīng)網(wǎng)絡(luò)通過(guò)在神經(jīng)網(wǎng)絡(luò)的權(quán)重上引入分布使得神經(jīng)網(wǎng)絡(luò)不僅能給出流量的檢測(cè)結(jié)果,還能給出檢測(cè)結(jié)果的不確定性。已知攻擊產(chǎn)生的檢測(cè)結(jié)果不確定性較小,未知攻擊的檢測(cè)結(jié)果不確定性大,將不確定性較大的流量判定為未知攻擊流量,交由人工篩選。人工篩選出未知攻擊和識(shí)別錯(cuò)誤的已知攻擊,并打上正確的標(biāo)簽。利用這些新樣本數(shù)據(jù),檢測(cè)模型一方面不斷更新舊知識(shí)以提高檢測(cè)準(zhǔn)確率,另一方面學(xué)習(xí)新知識(shí),實(shí)現(xiàn)對(duì)未知攻擊的精確分類(lèi)。

2. 網(wǎng)絡(luò)智能優(yōu)化

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,不同類(lèi)型的數(shù)據(jù)包充斥著整個(gè)網(wǎng)絡(luò),紛繁復(fù)雜的應(yīng)用服務(wù)有著不同的業(yè)務(wù)需求:直播服務(wù)在追求低延時(shí)的同時(shí)期望擁有更高的畫(huà)質(zhì),云計(jì)算服務(wù)需要在用戶容忍時(shí)間內(nèi)更快速地將結(jié)果返回給用戶,云存儲(chǔ)以及文件傳輸服務(wù)則需要保持連接的穩(wěn)定。TCP擁塞控制依舊是當(dāng)下主流的網(wǎng)絡(luò)自調(diào)節(jié)方式,但由于TCP無(wú)法感知業(yè)務(wù)類(lèi)型,也不能感知網(wǎng)絡(luò)狀態(tài),使其無(wú)法智能調(diào)控不同流量占比,嚴(yán)重影響網(wǎng)絡(luò)傳輸效率。

作為部署在網(wǎng)絡(luò)中的智能節(jié)點(diǎn),智能網(wǎng)絡(luò)交換機(jī)可以感知不同流量的業(yè)務(wù)類(lèi)型,利用基于深度學(xué)習(xí)的方法,實(shí)現(xiàn)智能網(wǎng)絡(luò)流量控制。在各個(gè)局域網(wǎng)中部署中央控制器,用于收集以及廣播網(wǎng)絡(luò)狀態(tài)信息,同時(shí)也需要對(duì)全局所有智能交換機(jī)做出的決策進(jìn)行評(píng)估;每個(gè)智能交換機(jī)上部署決策器,在基于本地以及全局網(wǎng)絡(luò)狀態(tài)的基礎(chǔ)上做出獨(dú)立決策,并利用中央控制器給出的評(píng)估值訓(xùn)練其決策器。通過(guò)網(wǎng)絡(luò)中的迭代訓(xùn)練,提高智能交換機(jī)的管控能力,進(jìn)而優(yōu)化網(wǎng)絡(luò)流量分布,提高用戶體驗(yàn)。

3. 網(wǎng)絡(luò)智能運(yùn)維

早期的運(yùn)維工作大多是依靠運(yùn)維人員的經(jīng)驗(yàn)完成的,成本高且效率低下。智能運(yùn)維借助大數(shù)據(jù)和AI算法賦能,對(duì)IT運(yùn)維數(shù)據(jù)進(jìn)行深入解析,從而實(shí)現(xiàn)故障檢測(cè)和故障溯源等功能,受到了廣泛的關(guān)注。

圖 4 基于LSTM模型的網(wǎng)絡(luò)故障檢測(cè)流程圖

運(yùn)維數(shù)據(jù)大部分以日志形式出現(xiàn),在計(jì)算機(jī)系統(tǒng)中,日志常用來(lái)輸出各設(shè)備的狀態(tài)信息,通過(guò)分析這些日志,可以檢測(cè)故障。如圖 4所示,智能化檢測(cè)方法提取日志模板序列,進(jìn)行編碼生成語(yǔ)義向量,最后利用深度學(xué)習(xí)算法(如LSTM模型)學(xué)習(xí)這些語(yǔ)義向量,從而自動(dòng)檢測(cè)故障,可以減少人力成本。對(duì)于大型的數(shù)據(jù)中心,網(wǎng)絡(luò)設(shè)備眾多并且存在耦合關(guān)系,單個(gè)設(shè)備發(fā)生故障,其他眾多與之存在耦合關(guān)系的設(shè)備其關(guān)鍵指標(biāo)(KPI)也會(huì)隨之表現(xiàn)出異常狀態(tài),因此對(duì)故障溯源具有重要意義。通過(guò)構(gòu)建運(yùn)維知識(shí)圖譜,發(fā)掘網(wǎng)絡(luò)設(shè)備之間的關(guān)聯(lián)關(guān)系,并計(jì)算相互耦合的設(shè)備之間的關(guān)聯(lián)系數(shù)。從而在某個(gè)設(shè)備KPI發(fā)生異常時(shí)實(shí)現(xiàn)故障的自動(dòng)溯源。

結(jié)束語(yǔ)

AI嵌入網(wǎng)絡(luò)基礎(chǔ)設(shè)施,實(shí)現(xiàn)網(wǎng)絡(luò)運(yùn)行的智能化,使得交換結(jié)構(gòu)朝著適應(yīng)網(wǎng)絡(luò)智能的方向發(fā)展。與現(xiàn)有的交換機(jī)架構(gòu)不同,通過(guò)引入智能平面,智能網(wǎng)絡(luò)交換機(jī)可以在繼承原有的數(shù)據(jù)平面和控制平面的同時(shí),增加支撐智能計(jì)算的可插拔模塊,在不增加現(xiàn)有基礎(chǔ)設(shè)施的情況下,實(shí)現(xiàn)以低成本的方式升級(jí)現(xiàn)有的網(wǎng)絡(luò)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論