對抗性AI攻擊凸顯基本安全問題

采用真實數(shù)據(jù)訓練出來的人工智能和機器學習(AI/ML)系統(tǒng)越來越被認為是對特定攻擊不設防,用非預期的輸入就能騙過這些系統(tǒng)。

本文來自數(shù)世咨詢,作者/nana 。

微信圖片_20230201100403.png

采用真實數(shù)據(jù)訓練出來的人工智能和機器學習(AI/ML)系統(tǒng)越來越被認為是對特定攻擊不設防,用非預期的輸入就能騙過這些系統(tǒng)。

2022年機器學習安全逃逸競賽(MLSEC 2022)中,參賽者成功篡改名人照片,在不做明顯改動的情況下使之被識別為另一個人。最常用的方法包括類似深度偽造(deepfake)的兩圖融合,以及將較小的圖像插入到原圖中。

另一案例中,來自麻省理工學院(MIT)、加利福尼亞大學伯克利分校和FAR AI的研究人員發(fā)現(xiàn),下出讓機器以為棋局已結束的幾步棋就能輕松擊敗專業(yè)級Go AI。盡管Go AI能用合乎邏輯的套路擊敗職業(yè)或業(yè)余圍棋選手,但對抗性攻擊采用理性棋手通常不會做出的決策就能亂拳打死老師傅,輕松擊敗存了一堆棋譜的機器。

這篇Go AI論文的主要作者之一,加州大學伯克利分校人工智能博士研究生Adam Gleave表示,這些攻擊突顯出,盡管AI技術可能效率超人,甚至在現(xiàn)實場景中飽經(jīng)驗證,但其仍然容易受到非預期輸入的影響。

“我會默認任何機器學習系統(tǒng)都是不安全的。”他說道,“我們應該一直避免在非必要情況下依賴機器學習系統(tǒng)(或任何其他單獨的代碼),要讓AI系統(tǒng)推薦決策,但在執(zhí)行前由人審批。”

以上種種顯露出了一個基本問題:由真實數(shù)據(jù)和場景訓練出來,能夠有效應對“真實世界”情況的系統(tǒng),在遇到異?;驉阂廨斎霑r,可能會表現(xiàn)出不穩(wěn)定、不安全的行為。

各種應用和系統(tǒng)都存在這個問題。例如,貝里維爾機器學習研究所(BIML)聯(lián)合創(chuàng)始人、網(wǎng)絡安全專家Gary McGraw就表示,自動駕駛汽車能處理普通駕駛員在路上可能會遇到的幾乎全部情況,但遇到異常事件或攻擊時就會闖禍,造成災難性后果。

他說:“機器學習的真正挑戰(zhàn)是搞清楚如何做到非常靈活,按常規(guī)處理事務,但在異常事件發(fā)生時能做出正確的反應。你通常會概括專家做法,因為你就是想養(yǎng)成一個專家……而無知的人會做出令人意外的操作……這就會導致一些狀況了。”

欺騙AI(和用戶)不難

由于幾乎沒有機器學習模型和AI系統(tǒng)開發(fā)人員關注對抗性攻擊,他們也不用紅隊測試自己的設計,找到騙過AI/ML系統(tǒng)的方法相當容易。MITRE、微軟及其他組織機構已敦促公司企業(yè)重視對抗性AI攻擊的威脅,他們通過人工智能系統(tǒng)對抗性威脅態(tài)勢(ATLAS)知識庫描述當前攻擊,并指出AI往往缺乏任何形式的穩(wěn)健性或安全性,對AI的研究早已遍地開花。

部分問題在于,不了解機器學習背后數(shù)學知識的非專家通常認為這些系統(tǒng)了解上下文及其所處環(huán)境。

SANS技術研究所研究員David Hoelzer表示,大型機器學習模型,比如圖像生成模型DALL-e和文章生成模型GPT-3,擁有大量數(shù)據(jù)集和新興模型,似乎可產生能夠推理的機器。

然而,這些模型的“世界”里只存在訓練出自己的數(shù)據(jù),并沒有上下文。而想要創(chuàng)建在面對異?;驉阂夤魰r能夠正確應對的AI系統(tǒng),卻需要威脅建??紤]進各種問題。

Hoelzer表示:“根據(jù)我的經(jīng)驗,打造AI/ML解決方案的人,大多數(shù)都沒真正考慮過怎樣保護這些解決方案。當然,聊天機器人開發(fā)人員已經(jīng)知道需要非常小心地處理訓練期間提供的數(shù)據(jù),謹慎準入可能影響訓練的人提供的輸入,從而避免弄出個令人反感的聊天機器人。”

專注機器學習和AI系統(tǒng)對抗性攻擊的Adversa.AI公司AI安全技術總監(jiān)Eugene Neelou表示,在較高層面上,有三種方法可以攻擊AI驅動的系統(tǒng),例如圖像識別系統(tǒng)。

分別是:在主圖像中嵌入較小的圖像;混合兩組輸入(例如圖像)來創(chuàng)建變形版本;添加特定噪聲導致AI系統(tǒng)以特定方式失效。最后一種方法沒多少人注意到,但對AI系統(tǒng)仍然有效。

Adversa.ai舉行了一場AI系統(tǒng)欺騙競賽,該公司在賽后總結中發(fā)現(xiàn),除一名選手外,其他所有選手都使用了前兩種攻擊。Adversa.AI公司AI安全技術總監(jiān)Neelou稱,我們從中得到的經(jīng)驗教訓是,AI算法不會增加系統(tǒng)的攻擊難度,反而會讓系統(tǒng)更容易攻擊,因為它們擴大了常規(guī)應用程序的攻擊面。

他表示:“傳統(tǒng)網(wǎng)絡安全無法抵御AI漏洞——AI模型安全是個獨特的領域,應該在AI/ML負責任務關鍵或業(yè)務關鍵決策的部門中實施。而且不僅僅是人臉識別,反欺詐、垃圾郵件過濾器、內容審查、自動駕駛,甚至醫(yī)療AI應用程序都能以類似的方式繞過。”

測試AI模型穩(wěn)健性

類似其他類型的暴力攻擊,限制輸入嘗試次數(shù)也可以幫助AI系統(tǒng)創(chuàng)建者防止ML攻擊。在Go系統(tǒng)攻擊中,加州大學伯克利分校的Gleave和其他研究人員構建了自己的對抗系統(tǒng),該系統(tǒng)反復與目標系統(tǒng)對弈,隨著對抗系統(tǒng)越來越成功,目標AI的難度水平也節(jié)節(jié)攀升。

Gleave表示,該攻擊技術凸顯了一種潛在對策。

他說道:“我們假設攻擊者可以針對固定的‘受害者’代理進行數(shù)百萬次的訓練。如果‘受害者’是可在本地計算機上運行的軟件,這種假設就很合理,但如果‘受害者’是在API背后運行的,那輸入嘗試可能會被檢測為濫用并踢出平臺,或者受害者隨時間推移逐漸變得不再易受攻擊——這會引入一系列圍繞數(shù)據(jù)投毒的安全風險,但有助于防御我們的攻擊。”

公司企業(yè)應繼續(xù)遵循安全最佳實踐,例如最小特權原則:不賦予員工工作所需之外的敏感系統(tǒng)訪問權限,也不過分依賴這些系統(tǒng)的輸出。最后,整個ML流程和AI系統(tǒng)設計中融入穩(wěn)健性。

Gleave表示:“我會更信任經(jīng)過了廣泛對抗測試的機器學習系統(tǒng),最好測試是由獨立紅隊進行,且設計者使用了已知較穩(wěn)健的訓練技術。”

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論