百度馮景輝:從數(shù)據(jù)清洗到安全圍欄,深度解析大模型原生安全構(gòu)建

李忠良
在推理和部署階段中,模型安全的部署、核心知識(shí)產(chǎn)權(quán)和數(shù)據(jù)不被竊取是人們普遍關(guān)心的話題。針對(duì)這個(gè)挑戰(zhàn),百度也推出了百度大模型數(shù)據(jù)安全解決方案,通過(guò)密態(tài)數(shù)據(jù)訓(xùn)練、模型文件加密流轉(zhuǎn)實(shí)現(xiàn)了大模型零信任、零改造的全流程解決方案。

本文來(lái)自微信公眾號(hào)“AI前線”,作者/李忠良。

隨著大模型的逐步發(fā)展,內(nèi)容安全問(wèn)題受到了前所未有的關(guān)注。為此,InfoQ特別邀請(qǐng)百度安全副總經(jīng)理馮景輝在8月18-19日的AICon全球人工智能大會(huì)(上海站)上,分享《百度大模型原生安全構(gòu)建之路》的主題演講。本文是對(duì)馮景輝的會(huì)前采訪對(duì)談。

在對(duì)談中,馮景輝提到,大模型的智能性、不確定性和不可解釋性為內(nèi)容安全帶來(lái)了重大挑戰(zhàn),這迫使開(kāi)發(fā)者在模型設(shè)計(jì)階段就必須深入考慮安全性問(wèn)題。百度在這一領(lǐng)域進(jìn)行了多項(xiàng)創(chuàng)新實(shí)踐,包括數(shù)據(jù)清洗、安全對(duì)齊、內(nèi)生安全技術(shù)以及安全圍欄等措施,形成了一套完整的全流程安全解決方案。

特別值得一提的是,百度采用了四步法進(jìn)行數(shù)據(jù)清洗,并引入代答模型,以提高內(nèi)容審核的自動(dòng)化和智能化水平。馮景輝還強(qiáng)調(diào)了構(gòu)建原生安全的重要性,指出通過(guò)有監(jiān)督微調(diào)和人類反饋強(qiáng)化學(xué)習(xí)等技術(shù),可以顯著提升模型的安全性和可靠性。

大模型安全的重要性與挑戰(zhàn)

InfoQ:為什么要做大模型安全方面的內(nèi)容,可以看到許多企業(yè)現(xiàn)在專心在搞應(yīng)用,為安全買單的人都是哪些類型的?

馮景輝:過(guò)去若干年技術(shù)的發(fā)展,很少有像今天大模型一樣,從技術(shù)蓬勃發(fā)展的第一天開(kāi)始,人們就如此重視安全,數(shù)據(jù)清洗、安全對(duì)齊是任何一個(gè)大模型在開(kāi)發(fā)之初就必須要考慮的事情,這一方面是由于人們認(rèn)識(shí)到生成式大模型擁有巨大的能量和潛力,必然要在最初就關(guān)注他的安全性,另外一方面,監(jiān)管部門對(duì)大模型也是很早就開(kāi)始關(guān)注,我國(guó)從去年就頒布了《生成式人工智能服務(wù)管理暫行辦法》,各個(gè)大模型企業(yè)也是應(yīng)相關(guān)法規(guī)要求,積極開(kāi)展安全工作。

InfoQ:您能否詳細(xì)解釋大模型的智能性、不確定性和不可解釋性如何影響內(nèi)容安全?有沒(méi)有什么案例?

馮景輝:在現(xiàn)實(shí)生活中,我們經(jīng)常使用大模型進(jìn)行文章創(chuàng)作、改寫、續(xù)寫這些任務(wù),但如何避免在創(chuàng)作過(guò)程中生成違反社會(huì)主義價(jià)值觀的內(nèi)容,這是需要模型開(kāi)發(fā)者在模型安全對(duì)齊,內(nèi)容安全架構(gòu)上進(jìn)行設(shè)計(jì)和開(kāi)發(fā)的。很多時(shí)候模型具備不確定性,也就是說(shuō)他每一次生成的內(nèi)容都不一樣,這給內(nèi)容安全帶來(lái)了更大的挑戰(zhàn),要求我們的模型安全更好的泛化能力,能夠應(yīng)對(duì)大模型生成內(nèi)容的不確定性。大模型的不可解釋性,是指我們幾乎無(wú)法通過(guò)分析準(zhǔn)確找到生成不安全內(nèi)容的全部原因,所以在安全對(duì)齊時(shí),我們通常都是通過(guò)SFT和人類反饋的強(qiáng)化學(xué)習(xí)這些技術(shù)來(lái)糾偏。

第二部分:百度的安全實(shí)踐與創(chuàng)新

InfoQ:在大模型的訓(xùn)練、精調(diào)、推理、部署和業(yè)務(wù)運(yùn)營(yíng)等關(guān)鍵階段,您認(rèn)為主要面臨哪些安全挑戰(zhàn)?針對(duì)這些挑戰(zhàn),百度采取了哪些具體的安全措施?

馮景輝:在訓(xùn)練階段,數(shù)據(jù)的清洗至關(guān)重要,只有更干凈的數(shù)據(jù),才能訓(xùn)練出更好的模型。百度大模型安全解決方案也提供了一整套數(shù)據(jù)清洗和評(píng)估的方法來(lái)應(yīng)對(duì)安全清洗的挑戰(zhàn),通過(guò)數(shù)據(jù)集評(píng)估、個(gè)人信息和敏感信息脫敏、違規(guī)內(nèi)容刪除、數(shù)據(jù)集質(zhì)量評(píng)估四個(gè)階段形成一個(gè)閉環(huán)。

在精調(diào)階段,安全對(duì)齊至關(guān)重要,通過(guò)SFT和RLHF,實(shí)現(xiàn)人類對(duì)齊,可以很大程度影響大模型輸出的安全性。

在推理和部署階段中,模型安全的部署、核心知識(shí)產(chǎn)權(quán)和數(shù)據(jù)不被竊取是人們普遍關(guān)心的話題。針對(duì)這個(gè)挑戰(zhàn),百度也推出了百度大模型數(shù)據(jù)安全解決方案,通過(guò)密態(tài)數(shù)據(jù)訓(xùn)練、模型文件加密流轉(zhuǎn)實(shí)現(xiàn)了大模型零信任、零改造的全流程解決方案。

在業(yè)務(wù)運(yùn)營(yíng)階段,模型生成內(nèi)容的安全性是大家普遍關(guān)心的,因其存在一定的不確定性風(fēng)險(xiǎn),我們所說(shuō)的不確定性主要是指,即使在相同的輸入下,也可能產(chǎn)生不同的輸出。這種不確定性源于模型內(nèi)部復(fù)雜的參數(shù)和訓(xùn)練數(shù)據(jù)的多樣性。更嚴(yán)重的是,模型有時(shí)會(huì)生成虛構(gòu)或不準(zhǔn)確的信息,這被稱為“模型幻覺(jué)”或“事實(shí)性幻覺(jué)”。例如,模型可能會(huì)編造不存在的事件、人物或數(shù)據(jù),這對(duì)依賴精確信息的業(yè)務(wù)來(lái)說(shuō)是極大的風(fēng)險(xiǎn)。

另外一方面,模型的安全限制可以通過(guò)精心構(gòu)造的提示詞被突破,這種攻擊被稱為“越獄攻擊”。攻擊者利用模型生成機(jī)制中的漏洞,設(shè)計(jì)特定的輸入,使模型輸出有害或不當(dāng)?shù)男畔?。例如,通過(guò)特定的提示詞,模型可能會(huì)生成敏感的機(jī)密信息、仇恨言論、虛假信息等,這對(duì)企業(yè)和用戶都會(huì)帶來(lái)嚴(yán)重的安全威脅。

為了解決模型內(nèi)容安全方面的問(wèn)題,百度的"大模型安全解決方案"通過(guò)使用語(yǔ)義干預(yù)、意圖分析等技術(shù)實(shí)現(xiàn)的大模型安全防火墻,可以有效抵御各類高級(jí)攻擊,結(jié)合代答模型實(shí)現(xiàn)安全大模型輸出風(fēng)險(xiǎn)的最大化防范。

InfoQ:您能否分享一些百度在數(shù)據(jù)清洗和內(nèi)容審核方面的創(chuàng)新方法?

馮景輝:首先,必須通過(guò)嚴(yán)謹(jǐn)而細(xì)致的訓(xùn)練數(shù)據(jù)清洗,保障進(jìn)入模型訓(xùn)練的數(shù)據(jù)都是經(jīng)過(guò)仔細(xì)甄別的,嚴(yán)格脫敏和審查了價(jià)值觀的內(nèi)容,經(jīng)過(guò)這些處理之后,雖然大量的數(shù)據(jù)無(wú)法滿足訓(xùn)練的要求而被最終刪除,但也正是這樣的方法保證了預(yù)訓(xùn)練模型在人類價(jià)值觀天然就具備更好的對(duì)齊性。

百度在數(shù)據(jù)清洗上不僅提供了一整套清洗系統(tǒng),還創(chuàng)新性的引入了四步法,即數(shù)據(jù)集評(píng)估、隱私脫敏、內(nèi)容合規(guī)清洗、完整性評(píng)估四個(gè)步驟,通過(guò)這四步實(shí)現(xiàn)數(shù)據(jù)評(píng)估到清洗,到評(píng)估的閉環(huán)。

在線系統(tǒng)的內(nèi)容安全方面,百度創(chuàng)新性地引入了代答模型這一組件。這種模型以其較小的參數(shù)體積和干凈的數(shù)據(jù)輸入,成為了處理敏感問(wèn)題的關(guān)鍵工具。由于代答模型的參數(shù)規(guī)模較小,它能夠高效地進(jìn)行模型訓(xùn)練和更新,同時(shí)確保低幻覺(jué)性,從而在實(shí)際應(yīng)用中減少了錯(cuò)誤或不相關(guān)輸出的風(fēng)險(xiǎn)。此外,當(dāng)代答模型與檢索增強(qiáng)技術(shù)(RAG)相結(jié)合時(shí),可以進(jìn)一步提升問(wèn)題回答的精準(zhǔn)度和質(zhì)量。這種結(jié)合利用了RAG的強(qiáng)大檢索能力和代答模型的高效、精確特性,使得系統(tǒng)能夠在復(fù)雜和多變的在線環(huán)境中,對(duì)敏感問(wèn)題給出更安全、可靠的回答。這不僅優(yōu)化了用戶體驗(yàn),也提高了內(nèi)容審核的自動(dòng)化和智能化水平,是內(nèi)容安全技術(shù)發(fā)展的一個(gè)重要步驟。

InfoQ:您認(rèn)為為什么需要構(gòu)建大模型的原生安全??jī)?nèi)生安全技術(shù)在大模型中的應(yīng)用是如何實(shí)現(xiàn)的?百度在內(nèi)生安全技術(shù)方面有哪些獨(dú)到的見(jiàn)解或?qū)嵺`?

馮景輝:以前我們的內(nèi)容審核技術(shù)主要面對(duì)的是用戶生成內(nèi)容(UGC)以及專業(yè)生成內(nèi)容(PGC)的審核場(chǎng)景,這種場(chǎng)景以敘述為主,內(nèi)容相對(duì)固定且易于標(biāo)準(zhǔn)化。然而,傳統(tǒng)的內(nèi)容審核技術(shù)并不適用于生成式大模型,特別是那些用于實(shí)現(xiàn)多輪對(duì)話的模型。這些大模型在對(duì)話過(guò)程中往往能夠維持話題的連貫性和邏輯性,但問(wèn)題本身在單獨(dú)出現(xiàn)時(shí)并不一定包含敏感內(nèi)容,而是可能在多輪對(duì)話的上下文中生成不當(dāng)內(nèi)容。

此外,很多基于場(chǎng)景的攻擊,例如通過(guò)特定的輸入引導(dǎo)模型生成不適宜的回答,是傳統(tǒng)內(nèi)容審核技術(shù)難以預(yù)測(cè)和解決的。這些攻擊利用了大模型的不確定性和所謂的“幻覺(jué)”特性,即模型可能基于錯(cuò)誤的事實(shí)或邏輯生成回答。這種不確定性以及大模型本身的復(fù)雜性,增加了檢測(cè)與審核的難度。

因此,必須針對(duì)生成式大模型的特性,構(gòu)建完全符合這些模型安全需求的新型內(nèi)容審核技術(shù)。這包括開(kāi)發(fā)能夠理解和分析多輪對(duì)話上下文的智能工具,以及利用機(jī)器學(xué)習(xí)方法來(lái)預(yù)測(cè)和識(shí)別可能的不適宜內(nèi)容生成。這種新技術(shù)將需要更深層次地理解對(duì)話的動(dòng)態(tài)性和復(fù)雜性,以及模型生成回答的內(nèi)在邏輯,從而提供更為精確和實(shí)時(shí)的內(nèi)容安全解決方案。

我們所說(shuō)的內(nèi)生安全指的是通過(guò)數(shù)據(jù)清洗、人類對(duì)齊等技術(shù),讓模型本身具備更好的安全性。做好安全對(duì)齊對(duì)于大模型內(nèi)容安全而言,可以說(shuō)是事半功倍。首先,通過(guò)有監(jiān)督微調(diào)(Supervised Fine-Tuning,SFT)可以使大模型更好地像人類一樣理解和回答敏感問(wèn)題。這種技術(shù)通過(guò)精確的訓(xùn)練,確保模型在處理敏感內(nèi)容時(shí)能夠遵守人類的倫理和道德標(biāo)準(zhǔn)。

其次,通過(guò)增強(qiáng)學(xué)習(xí)從人類反饋(Reinforcement Learning from Human Feedback,RLHF)來(lái)進(jìn)行人類觀點(diǎn)的對(duì)齊,進(jìn)一步讓模型了解什么是更好的回答。這種方法通過(guò)模擬人類的評(píng)價(jià)過(guò)程,使模型能夠在實(shí)際交互中生成更加合理和符合人類價(jià)值觀的回答。

此外,通過(guò)對(duì)輸入大模型的數(shù)據(jù)進(jìn)行嚴(yán)格的清洗,可以有效地去除不準(zhǔn)確或有偏見(jiàn)的信息,確保訓(xùn)練數(shù)據(jù)的質(zhì)量和純凈性,從而提高模型的輸出質(zhì)量。這一步驟對(duì)于防止模型學(xué)習(xí)到不當(dāng)?shù)膬?nèi)容至關(guān)重要。

最后,集成安全圍欄技術(shù)構(gòu)建的大模型防火墻,可以實(shí)現(xiàn)內(nèi)外兼顧的縱深防御體系。防火墻能夠在模型運(yùn)行時(shí)實(shí)時(shí)監(jiān)控其行為,對(duì)可能的不當(dāng)輸出進(jìn)行攔截和修正,實(shí)現(xiàn)快速止損,保障模型在任何情況下都不會(huì)產(chǎn)生違反安全準(zhǔn)則的回答。

通過(guò)上述措施,可以構(gòu)建一個(gè)既能有效應(yīng)對(duì)外部安全威脅,又能內(nèi)在防范錯(cuò)誤生成的大模型安全體系,從而在維護(hù)內(nèi)容安全的同時(shí),也保證了用戶交互的質(zhì)量和模型的可靠性。

安全圍欄與應(yīng)用安全

InfoQ:安全圍欄建設(shè)在大模型內(nèi)容安全中扮演了什么角色?這些經(jīng)驗(yàn)對(duì)其他企業(yè)有何借鑒意義?

馮景輝:安全圍欄技術(shù)是在不改變大模型的前提下,實(shí)現(xiàn)一套外掛式的安全防御系統(tǒng)。這種技術(shù)的主要目標(biāo)是實(shí)現(xiàn)快速止損,即通過(guò)精準(zhǔn)過(guò)濾任何可能有害的輸入內(nèi)容和輸出內(nèi)容,快速阻止不當(dāng)信息的傳播。安全圍欄的實(shí)現(xiàn)通常包括多層檢查機(jī)制,從基礎(chǔ)的關(guān)鍵詞過(guò)濾到更復(fù)雜的語(yǔ)義理解和情境分析,再到代答模型,每一層都旨在識(shí)別并處理潛在的不當(dāng)內(nèi)容。

例如,可以在模型輸出前加入實(shí)時(shí)內(nèi)容審查系統(tǒng),對(duì)所有生成內(nèi)容進(jìn)行評(píng)估,任何標(biāo)識(shí)為可能有害的輸出都會(huì)被即時(shí)攔截和修改。然后在情景分析和意圖識(shí)別中將哪些有可能造成危害的輸入引入代答模型的回復(fù),保障在風(fēng)險(xiǎn)問(wèn)題上的安全。

此外,安全圍欄是內(nèi)生安全的一種有效補(bǔ)充。雖然內(nèi)生安全通過(guò)提高模型本身的安全性來(lái)減少不當(dāng)輸出的可能性,但外部安全圍欄技術(shù)提供了一種額外的保護(hù)層。這種雙重防護(hù)機(jī)制確保即使在內(nèi)生安全措施未能完全預(yù)防不當(dāng)行為的情況下,也能通過(guò)外部干預(yù)迅速糾正問(wèn)題,極大地增強(qiáng)了整體安全體系的魯棒性。

InfoQ:您認(rèn)為應(yīng)用安全與基礎(chǔ)模型內(nèi)容安全之間的邊界在哪里??jī)烧咧g是否存在重疊或沖突?

馮景輝:基礎(chǔ)模型與模型應(yīng)用在內(nèi)容安全與合規(guī)上雖然存在一定的共同關(guān)注點(diǎn),如都需面對(duì)內(nèi)容安全的敏感問(wèn)題,但二者在處理這些問(wèn)題時(shí)的側(cè)重點(diǎn)有所不同。

對(duì)于基礎(chǔ)模型安全而言,主要關(guān)注于處理通用性問(wèn)題和訓(xùn)練數(shù)據(jù)中可能帶來(lái)的風(fēng)險(xiǎn)。這包括確保輸入數(shù)據(jù)的多樣性和質(zhì)量,避免訓(xùn)練過(guò)程中出現(xiàn)偏見(jiàn)和不準(zhǔn)確的情況?;A(chǔ)模型還需關(guān)注模型的可靠性,盡量減少由于模型幻覺(jué)帶來(lái)的風(fēng)險(xiǎn)。例如,通過(guò)增加模型對(duì)不確定輸入的魯棒性,來(lái)提高模型整體的穩(wěn)定性和可靠性。

對(duì)于模型應(yīng)用安全而言,則更多關(guān)注于保護(hù)應(yīng)用本身。這涉及到大模型在具體應(yīng)用中如何保證安全,包括對(duì)模型自身的保護(hù)以及整個(gè)供應(yīng)鏈的安全。在應(yīng)用層面,需要特別注意如何控制和監(jiān)測(cè)模型的輸出,避免在特定應(yīng)用場(chǎng)景中產(chǎn)生不當(dāng)或有害的結(jié)果。此外,模型應(yīng)用還需關(guān)注如何在不同的使用環(huán)境下保持合規(guī)性,比如在涉及敏感數(shù)據(jù)處理時(shí)符合本行業(yè)法律法規(guī),模型應(yīng)用也要防止濫用。

InfoQ:百度在應(yīng)用防火墻的構(gòu)建上有哪些創(chuàng)新之處?這些措施如何幫助提升整體安全性?

馮景輝:在大模型防火墻的實(shí)踐上,我們創(chuàng)新的將語(yǔ)義識(shí)別與意圖識(shí)別相結(jié)合,通過(guò)分析輸入內(nèi)容的意圖,實(shí)現(xiàn)精準(zhǔn)的意圖的分類和策略路由,以便更加有效地管理輸入請(qǐng)求,確保其安全性和合規(guī)性。通過(guò)這種方式,可以有效地將請(qǐng)求分流至不同的處理模塊,從而最大化資源的利用效率和保障處理質(zhì)量。

我們利用基礎(chǔ)模型的安全狀態(tài)作為一個(gè)重要參考,決定某些類型的請(qǐng)求是否應(yīng)由基礎(chǔ)模型直接處理。例如,對(duì)于一些模型強(qiáng)化過(guò)人類價(jià)值觀和違法犯罪問(wèn)題的模型,而開(kāi)發(fā)者又希望同時(shí)可以將兼顧指令跟隨和邏輯處理,那么可以將這一類問(wèn)題經(jīng)過(guò)判斷,中低風(fēng)險(xiǎn)的交給基礎(chǔ)模型進(jìn)行回答,在效果和安全性之間做到平衡。

未來(lái)展望

InfoQ:您認(rèn)為大模型內(nèi)容安全領(lǐng)域的未來(lái)發(fā)展趨勢(shì)是什么?

馮景輝:首先,多模態(tài)是現(xiàn)如今大模型的標(biāo)配,但目前模型安全領(lǐng)域還存在著短板,有很多模型,只要把過(guò)去不能執(zhí)行的有害內(nèi)容指令寫入圖片或文檔等多模態(tài)輸入中,就能繞過(guò)檢查,這是急需要解決的問(wèn)題。

InfoQ:您希望通過(guò)這次演講,讓聽(tīng)眾獲得哪些具體的知識(shí)和啟發(fā)?

馮景輝:希望大家能通過(guò)我的分享,了解到大模型安全風(fēng)險(xiǎn),認(rèn)識(shí)到大模型安全與我們的日常生產(chǎn)息息相關(guān),希望更多的朋友關(guān)注并參與到大模型安全的事業(yè)中,為這一次技術(shù)革命保駕護(hù)航。也呼吁有關(guān)部門,對(duì)新技術(shù)保持開(kāi)放和包容的心態(tài),同時(shí)盡早關(guān)注多模態(tài)帶來(lái)的風(fēng)險(xiǎn),出臺(tái)相關(guān)的規(guī)范指導(dǎo)行業(yè)健康發(fā)展。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論