AI倫理和安全風險管理終極指南

晶顏123
隨著人工智能應用的持續(xù)深入和普及,我們有必要考慮它對各種團隊的影響,包括那些專注于安全、信任和合規(guī)性的團隊。

本文來自微信公眾號“FreeBuf”,作者/晶顏123。

人工智能(AI)正在迅速改變各個領域的軟件開發(fā)和部署。驅動這一轉變的兩個關鍵群體為人工智能開發(fā)者和人工智能集成商。開發(fā)人員處于創(chuàng)建基礎人工智能技術的最前沿,包括生成式人工智能(GenAI)模型、自然語言處理(NLP)和大型語言模型(LLM)。與此同時,像Snap、Instacart、CrowdStrike、Priceline、Cloudflare、X(Twitter)和Salesforce這樣的集成商通常會將這些人工智能的進步融入到他們的產品中。開發(fā)人員和集成商都致力于以創(chuàng)新和防范潛在威脅的方式推動人工智能的發(fā)展,確保人工智能技術保持競爭力、道德和安全。

隨著人工智能應用的持續(xù)深入和普及,我們有必要考慮它對各種團隊的影響,包括那些專注于安全、信任和合規(guī)性的團隊。這些團隊會遇到哪些挑戰(zhàn)和風險,人工智能如何幫助解決這些領域的問題?本指南旨在根據HackerOne公司在不斷發(fā)展的人工智能領域的經驗和見解來解決這些關鍵問題。

人工智能的現狀

隨著人工智能技術的日益普及,兩個關鍵趨勢開始顯露:進攻型人工智能的主導地位和攻擊面的迅速擴大。

進攻型AI正在超越防御型AI

在短期內(也可能是無限期的),攻擊性或惡意的人工智能應用程序將超過防御性的人工智能應用程序。這其實并不是一個新現象:攻擊與防御的「貓鼠游戲」一直是網絡安全領域的主旋律。

雖然GenAI為推進防御用例提供了巨大的機會,但網絡犯罪團伙和惡意攻擊者也不會放過濫用人工智能的機會。他們將升級武器,尋找潛在的漏洞利用,來對抗一切防御努力。通過深度造假(deepfakes)進行的社會工程攻擊將比以往任何時候都更有說服力和成效。GenAI降低了準入門檻,網絡釣魚正變得越來越有說服力。

您是否曾經收到過一個自稱是您的CEO的隨機號碼發(fā)來的短信,要求您購買500張禮品卡?雖然您不太可能上當,但如果這個電話來自您CEO的電話號碼,情況又會有什么不同呢?如果這個聲音聽起來和您的CEO一模一樣,而且這個聲音甚至可以實時回答您的問題呢?這就是人工智能語音克隆的力量。

攻擊面呈指數級增長

此外,研究發(fā)現新的攻擊面出現爆炸式增長。防御者長期以來一直遵循「攻擊面最小化」(attack surface reduction)原則,這是微軟創(chuàng)造的一個術語,其目的是通過減少攻擊者執(zhí)行攻擊的方式來保護組織的設備和網絡。然而,GenAI的快速商品化將扭轉一些攻擊面最小化的進程。

使用GenAI生成代碼的能力大大降低了成為軟件工程師的門檻,導致越來越多的代碼由不完全理解所開發(fā)軟件的技術含義的人發(fā)布,更不用說監(jiān)督安全含義了。

此外,GenAI需要大量的數據。那些持續(xù)以人類智力水平給我們留下深刻印象的模型,毫無例外都是數據體量最大的模型。在一個GenAI無處不在的未來,各種組織將積累越來越多的數據,甚至遠超我們現在的認知水平。因此,數據泄露的規(guī)模和影響將會失控。攻擊者比以往任何時候都更有動力獲取數據。暗網數據價格正在上漲就是最好的證明。

攻擊面增長并不止于此:在過去的幾個月里,企業(yè)已經快速實現了GenAI提供的特性和功能。與任何新興技術一樣,開發(fā)人員可能沒有完全意識到他們的實現可能被利用或濫用的方式。針對GenAI驅動的應用程序的新穎攻擊正在成為防御者不得不擔心的新威脅。

監(jiān)管環(huán)境和業(yè)務需求正在演變

隨著圍繞人工智能測試的監(jiān)管要求和業(yè)務要求變得越來越普遍,組織必須將人工智能紅隊和對齊測試無縫集成到他們的風險管理和軟件開發(fā)實踐中。這種戰(zhàn)略整合對于培養(yǎng)負責任的人工智能開發(fā)文化,并確保人工智能技術滿足安全和道德期望至關重要。

歐盟人工智能法案

歐盟最近就人工智能法案達成了一項協議,該法案對人工智能的信任和安全提出了幾項要求。對于一些高風險的人工智能系統(tǒng),所提要求包括對抗性測試、風險評估和緩解、網絡事件報告以及其他安全保障措施。

美國聯邦指南

歐盟的人工智能法案緊隨美國聯邦政府的指導方針,例如最近關于安全和可信賴的人工智能的行政命令,以及聯邦貿易委員會的指導方針。這些框架將人工智能紅隊和正在進行的測試確定為幫助確保安全性和一致性的關鍵保障措施。

隨著人工智能的應用范圍不斷擴大,使用者的責任也在不斷擴大。對于希望部署GenAI的高科技公司來說,在網絡安全方面采取積極主動的立場至關重要。這不僅意味著要跟上監(jiān)管要求,整合強大的安全措施,還意味著要培養(yǎng)一種不斷創(chuàng)新和道德優(yōu)先的文化。平衡技術競爭力與安全性是在不斷變化的局勢中蓬勃發(fā)展的關鍵。

風險:影響AI和LLM的主要漏洞

迅速采用GenAI以提高生產力和保持競爭力的壓力已經上升到令人難以置信的程度。與此同時,安全負責人正在努力了解如何利用GenAl技術,同時確保免受固有的安全問題和威脅。

AI Safety vs.AI Security

AI Safety的重點是防止人工智能系統(tǒng)產生有害內容,從制造武器的說明到攻擊性語言和不適當的圖像。它旨在確保負責任地使用人工智能并遵守道德標準。AI safety風險可能會對組織產生如下影響:

●有偏見或不道德決策的傳播;

●公眾對人工智能技術和部署它們的組織的信任受到侵蝕;

●不遵守道德標準所帶來的法律、法規(guī)和財務責任;

●可能傷害個人或社會的意外后果。

另一方面,AI security涉及測試人工智能系統(tǒng),目的是防止惡意行為者濫用人工智能,例如,損害人工智能所嵌入系統(tǒng)的機密性、完整性或可用性。AI security風險可能會為組織帶來如下問題:

●泄露敏感或隱私信息;

●向未經授權的用戶提供訪問和功能;

●損害模型的安全性、有效性和道德性行為;

●造成廣泛的財務和聲譽損失。

OWASP Top 10 LLM漏洞

開放Web應用程序安全項目(OWASP)每年都會發(fā)布一系列全面的指南,包括「Top 10 LLM應用程序漏洞」,其中介紹了LLM應用程序面臨的最關鍵的安全風險。以下是最新的OWASP Top 10 LLM漏洞榜單:

提示注入:攻擊者通過精心設計的輸入直接或間接地操縱可信LLM的操作。

不安全的輸出處理:當對模型輸出內容沒有足夠的驗證、凈化處理,便將其傳遞給下游組件或系統(tǒng)時,就會存在不安全輸出處理的漏洞風險。這些漏洞一旦被濫用,便會引發(fā)XSS、CSRF、SSRF、特權升級或遠程代碼執(zhí)行等問題。

訓練數據中毒:指操縱預訓練數據或在微調及嵌入過程中涉及的數據,以引入漏洞、后門或偏見,從而損害模型的安全性、有效性或道德行為。

模型拒絕服務:攻擊者在LLM進行某種交互并大量消耗資源,從而導致服務降級或高成本。

供應鏈漏洞:LLM中的供應鏈可能很脆弱,會影響訓練數據、機器學習(ML)模型和部署平臺的完整性。LLM中的供應鏈漏洞可能導致有偏差的結果、安全漏洞,甚至系統(tǒng)故障。

敏感信息泄露:當LLM無意中泄露機密數據,導致專有算法、知識產權和私人或個人信息暴露,從而導致隱私侵犯和其他安全漏洞時,就會發(fā)生這種情況。

不安全的插件設計:LLM的功能和實用性可以通過插件進行擴展。然而,這可能伴隨著通過糟糕或不安全的插件設計引入更多攻擊面的風險。

過度代理:通常由過多的功能、權限和/或自主權引起。這些因素中的一個或多個會導致在響應LLM的意外輸出或模糊輸出時執(zhí)行破壞性操作。

過度依賴:這種情況通常發(fā)生在系統(tǒng)或人員在沒有充分監(jiān)督的情況下依賴LLM進行決策或內容生成。組織和員工可能會過度依賴LLM,而缺乏確保信息準確、審查和安全所需的知識和驗證機制。

模型盜竊:涉及惡意行為者未經授權的訪問、復制或泄露專有LLM模型的情況。這可能導致經濟損失、聲譽受損和未經授權訪問高度敏感數據。

現實世界的AI劫持

道德黑客現在專門尋找人工智能模型和部署中的漏洞。事實上,在hackerone的年度調查中,62%的黑客表示他們計劃專攻OWASP TOP 10 LLM應用程序漏洞。例如,黑客Joseph「rez0」Thacker、Justin「Rhynorater」Gardner和Roni「Lupin」Carta正在合作,通過攻擊GenAI助手(現在被稱為Gemini)來強化谷歌的人工智能紅隊。

Bard ExtensionAI功能的推出為Bard提供了訪問GoogleDrive、Google Docs和Gmail的權限。這意味著Bard可以訪問個人身份信息,甚至可以閱讀電子郵件,訪問文件和位置。但黑客們發(fā)現,Bard分析了不可信的數據,可能容易受到不安全的直接對象引用(IDOR)和數據注入攻擊的影響。

640 (1).png

在bard Extensions發(fā)布不到24小時的時間里,黑客們證明了如下結論:

●Google Bard很容易通過擴展的數據受到IDOR和數據注入攻擊。

●惡意圖像提示注入指令將利用此漏洞。

●一個提示注入有效載荷可能會泄露受害者的電子郵件。

由于個人電子郵件泄露的影響十分大,黑客迅速向谷歌報告了這一漏洞,并獲得了2萬美元的賞金。然而,像這樣的漏洞還只是GenAI中新發(fā)現漏洞的「冰山一角」。開發(fā)和部署GenAI和LLM的組織需要專門從事OWASP TOP 10 LLM漏洞研究的安全人才,才能正確平衡這些技術的競爭力和安全性。

機會:與黑客合作,快速安全地構建和部署AI

自從OpenAI宣布ChatGPT以來,道德黑客就一直在試驗人工智能系統(tǒng)。黑客是一股智慧和實驗的集體力量。他們是好奇的天才,他們的努力可以幫助組織以有競爭力的速度交付或實施人工智能,并維護安全。

HackerOne于2023年底發(fā)布了第七份年度黑客驅動安全報告,調查了黑客對GenAI的使用情況以及他們攻擊該技術的經驗。以下為主要調查結果:

●66%的黑客正使用或將使用GenAI來更好地編寫報告;

●61%的黑客計劃使用并開發(fā)GenAI驅動黑客工具來發(fā)現更多漏洞;

●55%的黑客表示,GenAI工具將成為他們未來幾年的重點目標;

●53%的黑客將使用GenAI來編寫代碼;

●53%的黑客正在使用GenAI;

●43%的黑客認為GenAI將導致代碼中的漏洞數量增加;

●38%的黑客認為GenAI將導致代碼中的漏洞數量減少;

●28%的黑客最關注GenAI的犯罪型漏洞利用;

●22%的黑客最關注通過GenAI進行虛假信息傳播;

●18%的黑客最關注通過GenAI增加不安全的代碼;

●14%的黑客表示,GenAI已經成為其「至關重要的工具」;

●3%的黑客表示將使用GenAI來降低語言障礙。

640 (1).png

黑客眼中的頂級GenAI和LLM風險

HackerOne與黑客社區(qū)就AI的使用和安全問題進行了持續(xù)的對話,揭示了黑客眼中的頂級GenAI和LLM風險。

提示注入

OWASP十大LLM漏洞將提示注入定義為一種漏洞,在此漏洞中,攻擊者可以直接或間接地通過精心制作的輸入操縱可信LLM的操作。安全專家Paxton-Fear對提示注入提出了警告,他表示:

「隨著AI技術的成熟和復雜性的增長,未來將會有更多的方法來破壞它。我們已經看到了人工智能系統(tǒng)特有的漏洞,例如提示注入或訓練數據中毒。我們需要人工智能和人類智慧來克服這些安全挑戰(zhàn)?!?/p>

Joseph Thacker則用了一個例子來幫助理解提示注入的力量,他表示,

「如果攻擊者使用提示注入來控制LLM函數調用的上下文,他們就可以通過調用web瀏覽器特性來泄漏數據,并將泄漏的數據移動到攻擊者一方?;蛘?,攻擊者可以通過電子郵件向負責閱讀和回復電子郵件的LLM發(fā)送提示注入有效載荷。」

Roni Carta指出,如果開發(fā)人員使用ChatGPT來幫助他們在計算機上安裝提示包,那么他們在要求它查找?guī)鞎r可能會遇到麻煩。因為ChatGPT會產生庫名,而威脅行為者可以通過逆向工程假庫來利用這些庫名。

代理訪問控制

Joseph Thacker表示,訓練數據的質量決定了LLM的質量。而且,通常最有用的數據往往是私密數據。

根據Thacker的說法,這在代理訪問控制方面產生了一個極為關鍵的問題。訪問控制問題是HackerOne平臺發(fā)現的非常常見的漏洞。而加劇人工智能代理訪問控制問題的根源在于數據的混合。Thacker表示,人工智能代理傾向于將二階數據訪問與特權操作混合在一起,從而暴露出最敏感的信息,這些信息可能會被惡意行為者利用。

GenAI時代道德黑客的演變

在一個由Zoom和Salesforce的安全專家組成的小組討論中,黑客Tom Anthony預測了黑客利用人工智能處理流程的變化。他表示,在Zoom最近的一次現場黑客活動中,黑客可以找到復活節(jié)彩蛋,而破解這些彩蛋的黑客使用了LLM來破解它。黑客可以使用人工智能來加速他們的過程,例如,在嘗試暴力破解系統(tǒng)時快速擴展單詞列表。此外,他還感覺到了使用自動化的黑客的明顯不同,聲稱人工智能將大大提高對源代碼的閱讀能力。

黑客Jonathan Bouman使用ChatGPT來幫助破解他不是很自信的技術。他介紹稱:

「我可以破解web應用程序,但不能破解新的編碼語言。在一次現場黑客活動中,我將所提供的所有文檔(刪除了所有與公司相關的內容)復制粘貼進了ChatGPT,給了它所有的結構,并問它:‘你將從哪里開始?’我用了一些提示來確保它不會產生幻覺,而且它確實提供了一些低危漏洞。因為我和50個道德黑客在一個房間里,我可以和更廣泛的團隊分享我的發(fā)現,我們把其中的兩個漏洞升級為嚴重漏洞。如果沒有ChatGPT,我不可能做到這一點,而如果沒有黑客社區(qū),我也不可能取得這么大的影響?!?/p>

甚至還有一些新的工具可用于指導LLM入侵。Tom Anthony曾使用一款在線游戲進行提示注入,順利欺騙GPT模型提供秘密。

解決方案:AI紅隊

人工智能紅隊是一種全面檢查人工智能系統(tǒng)(包括人工智能模型及其軟件組件)以識別安全問題的方法。這個過程會產生一系列問題以及用于解決這些問題的可行性建議,使傳統(tǒng)的紅隊能夠適應獨特的人工智能挑戰(zhàn)。具體可以通過漏洞懸賞計劃、滲透測試或有時間限制的攻擊性測試挑戰(zhàn)來實現。

以下是HackerOne根據十多年經驗給出的AI紅隊最優(yōu)化實踐建議:

團隊組成

一個精心挑選和多樣化的團隊是有效評估的支柱。強調背景、經驗和技能的多樣性對于保護人工智能至關重要。好奇心驅動的思考者、具有不同經驗的個人,以及熟練掌握生產LLM提示行為的組合能夠產生最好的結果。

協作和規(guī)模

人工智能紅隊成員之間的協作具有無與倫比的意義,往往能夠超過傳統(tǒng)的安全測試。HackerOne發(fā)現,15-25名測試人員的團隊規(guī)??梢赃_到有效參與的平衡,帶來多樣化和全面的視角。

背景和范圍

與傳統(tǒng)的安全測試人員不同,人工智能紅隊必須充分了解他們正在評估的人工智能系統(tǒng)。與客戶密切合作以建立全面的環(huán)境和精確的范圍是必不可少的。這種合作有助于確定人工智能的預期目的、部署環(huán)境、現有的安全和防御措施以及任何限制。

私人vs.公共

雖然由于safety和security問題的敏感性,大多數人工智能紅隊都是私下運作的,但在某些情況下,也會采取公眾參與的形式,比如X發(fā)起的「算法偏見賞金」挑戰(zhàn),通過邀請和激勵人工智能倫理領域的研究人員來幫助識別Twitter圖像裁剪算法的潛在歧視危害和倫理問題,目前已經取得了巨大的成功。

激勵模型

調整激勵模式是人工智能紅隊戰(zhàn)術手冊的一個關鍵方面。事實證明,將固定費用參與獎勵與實現特定成果的獎勵(類似于獎金)結合起來的混合經濟模式最為有效。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論