葉超:下一代反病毒引擎——云管端、工業(yè)化、智能化

我們所面對(duì)安全問題的規(guī)模越來越大,全球惡意軟件規(guī)模呈不斷上漲的趨勢(shì),目前年增量已接近2億,新增惡意軟件每月在1千萬左右,而這僅僅是AVTEST的公開數(shù)據(jù),實(shí)際數(shù)量更大。

瑞星安全研究院院長葉超

我們所面對(duì)安全問題的規(guī)模越來越大,全球惡意軟件規(guī)模呈不斷上漲的趨勢(shì),目前年增量已接近2億,新增惡意軟件每月在1千萬左右,而這僅僅是AVTEST的公開數(shù)據(jù),實(shí)際數(shù)量更大。

每月新增惡意軟件在1千萬左右

面對(duì)如此困難的挑戰(zhàn),人們作出了不同的選擇。有的人選擇把問題縮小,只應(yīng)對(duì)其中一小部分;有的人選擇把問題簡單化,用巨大的哈希庫跟隨;還有的人選擇把問題拋給別人,買一個(gè)能解決這個(gè)問題的。

面對(duì)來勢(shì)洶洶的惡意軟件,我們到底該如何應(yīng)對(duì)?

瑞星的秘密武器是三大核心引擎+工業(yè)化運(yùn)營+人工智能賦能。所謂的三大核心引擎即睿擎、云腦、魚雷。“睿擎”是一款由純C++編寫的惡意軟件檢測(cè)引擎。它具備良好的平臺(tái)兼容性、豐富的文件格式支持能力和強(qiáng)大的惡意軟件檢測(cè)能力。“云腦”是一個(gè)在線的惡意軟件檢測(cè)服務(wù),通過HTTPS方式進(jìn)行訪問獲取服務(wù)。“云腦”不直接接受文件,而是接受經(jīng)過其配套的本地組件提取的文件摘要,網(wǎng)絡(luò)數(shù)據(jù)交互量極小。而“魚雷”是一款小巧的面向網(wǎng)絡(luò)流的惡意軟件檢測(cè)引擎,具備內(nèi)存占用小、速度快的特點(diǎn),是網(wǎng)絡(luò)側(cè)提供基礎(chǔ)的惡意軟件檢測(cè)能力的絕佳方案。通過工業(yè)化及智能化后的效果表明,每日新增非PE類惡軟檢出對(duì)比結(jié)果顯示檢出數(shù) / 檢出最大值呈現(xiàn)快速增長趨勢(shì),而病毒庫大小只需要20~30M,參與運(yùn)營人力僅為一人。

引擎的工業(yè)化運(yùn)營 :獲得極致的運(yùn)營效率

惡意代碼研究是門技術(shù)活,惡意代碼檢測(cè)也更像是手藝活,“手工”依然是流行的惡意代碼檢測(cè)引擎的運(yùn)營方式。“手工制作”有它的優(yōu)勢(shì),它可以將人的智慧體現(xiàn)出來,會(huì)出現(xiàn)質(zhì)量極好的“特征”。但“手工制作”的劣勢(shì)也十分明顯,低下且與對(duì)手發(fā)展趨勢(shì)不匹配的效率,不可控的誤報(bào)概率且太依賴于人的智慧、經(jīng)驗(yàn),否則如同“垃圾”。

2008年至今,大多數(shù)公司均在采用的技術(shù),用一套強(qiáng)大的后臺(tái)系統(tǒng)鑒定每日新產(chǎn)生的惡意軟件,將惡意軟件的哈希值或指紋,送到云端。云端運(yùn)行著一個(gè)巨大的哈希庫,客戶端聯(lián)網(wǎng)查詢過的目標(biāo)對(duì)象是否是惡意的結(jié)果。從捕獲樣本到能檢測(cè),通常在分鐘級(jí)。云端可收錄無限黑白文件,且不用擔(dān)心分發(fā)問題。但檢測(cè)手段有限,通常只能使用哈希類,對(duì)未來出現(xiàn)的惡意代碼缺乏前瞻性。大多數(shù)公司的云引擎更專注于二進(jìn)制惡意軟件,無法很好地應(yīng)對(duì)離線環(huán)境、低資源環(huán)境,核心能力是捕獲能力和云端數(shù)據(jù)庫規(guī)模。

通過一系列的自動(dòng)化運(yùn)營過程的研發(fā),我們?cè)趦赡陜?nèi)完成了引擎的無人運(yùn)營。做到了“手工”無法企及的:

●高效率:吞吐量在每日百萬級(jí),且可簡單擴(kuò)展

●不間斷:全球零時(shí)差,7*24小時(shí)

●高可靠:全程白名單壓制,誤報(bào)率可量化

以及傳統(tǒng)云引擎無法比擬的:

●高質(zhì)量:通常具備1比50的檢出比

●小尺寸:產(chǎn)出為共性特征以及邏輯特征

引擎的AI賦能:獲得領(lǐng)先對(duì)手一步的能力

2012年至今瑞星一直在持續(xù)地研究,嚴(yán)謹(jǐn)?shù)厥褂谩2粩鄧L試跨過機(jī)器學(xué)習(xí)在惡軟檢測(cè)領(lǐng)域應(yīng)用的最大障礙:不可控的誤報(bào)問題。2017年,我們推出了針對(duì) Windows 可執(zhí)行文件AI引擎,使用隨機(jī)森林模型,訓(xùn)練于億級(jí)樣本,我們稱之為RDM+引擎。隨機(jī)森林通常僅對(duì)訓(xùn)練集合表現(xiàn)優(yōu)異,在訓(xùn)練集足夠大的情況下,這恰恰是優(yōu)點(diǎn)。在生產(chǎn)環(huán)境中使用特征向量的哈希值來標(biāo)注誤報(bào),在預(yù)測(cè)前返回正確結(jié)果,等待下次預(yù)測(cè)模型更新。在各階段訓(xùn)練過程中,優(yōu)選黑、增加白都可以使整個(gè)模型傾向于“非黑”的預(yù)測(cè)結(jié)果。結(jié)合其他各類遙感數(shù)據(jù)途徑,以最快的速度發(fā)現(xiàn)潛在的誤報(bào),并進(jìn)行遮蔽和訓(xùn)練集更新。

目前所有采用人工智能技術(shù)的廠商,他們都只給出“是不是”,或置信度,而不是惡軟的家族名。而我們嘗試給出更好地答案,即特征向量哈希映射到惡軟家族名,向量值稍變,則無效。將特征向量用于另一個(gè)過程是最鄰近搜索(NNS),并把問題轉(zhuǎn)化為在海量已命名向量中極快地找出最相似的向量。最終將AI技術(shù)應(yīng)用于云端,創(chuàng)造出更具智能化的云引擎。

從2015年開始,惡意代碼檢測(cè)的算法,均優(yōu)先考慮面向順序IO,而不是傳統(tǒng)的隨機(jī)IO。

對(duì)此我們推出了針對(duì)Windows/Linux二進(jìn)制程序文件:放棄AC等基于狀態(tài)機(jī)的算法,采用多路哈希算法,損失部分性能從而獲得極致的空間利用率;從敏感點(diǎn)指紋自動(dòng)化運(yùn)營中,自動(dòng)抽取被標(biāo)記為惡意的區(qū)域,形成二進(jìn)制特征串。讓其成為睿擎工業(yè)化運(yùn)營的副產(chǎn)品;不定長二進(jìn)制特征串被壓縮為復(fù)合哈希值,僅需少量空間便可存放數(shù)千萬特征。

針對(duì)腳本/網(wǎng)頁等文本類惡意代碼,與本地引擎中的檢測(cè)機(jī)制完全一致:基于順序IO,基于狀態(tài)機(jī)的文檔結(jié)構(gòu)解析和代碼主干提??;惡意代碼特征同樣來自于工業(yè)化運(yùn)營,無需人工參與;代碼主干同樣被壓縮為復(fù)合哈希,以小空間容納大規(guī)模特征;匹配采用二分查找,速度極快。

現(xiàn)在的瑞星選擇直面問題,轉(zhuǎn)變思路,求索驗(yàn)證??焖偻瓿闪藱z出能力的激增,幾乎實(shí)現(xiàn)了全線無人化運(yùn)營,誤報(bào)概率已遠(yuǎn)低于人工運(yùn)營。

(本文根據(jù)瑞星安全研究院院長葉超在2019第四屆中國網(wǎng)絡(luò)信息安全峰會(huì)上的演講內(nèi)容整理,未經(jīng)本人確認(rèn)。)

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論