螞蟻集團(tuán)韋韜:可信隱私計(jì)算是數(shù)據(jù)密態(tài)時(shí)代關(guān)鍵技術(shù)

過去兩年,隱私計(jì)算成為解決數(shù)據(jù)安全和個(gè)人信息保護(hù)這一挑戰(zhàn)的核心技術(shù)。經(jīng)歷了2020年的隱私計(jì)算技術(shù)元年和2021年的隱私計(jì)算應(yīng)用元年,隱私計(jì)算技術(shù)在2022年將迎來(lái)大規(guī)模落地的需求。

數(shù)據(jù)要素是數(shù)字經(jīng)濟(jì)時(shí)代的重要資源。習(xí)總書記明確指出“網(wǎng)絡(luò)安全和信息化是一體之兩翼、驅(qū)動(dòng)之雙輪,必須統(tǒng)一謀劃、統(tǒng)一部署、統(tǒng)一推進(jìn)、統(tǒng)一實(shí)施。”在2022年1月,國(guó)務(wù)院發(fā)布《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》明確堅(jiān)持“創(chuàng)新引領(lǐng)、融合發(fā)展,應(yīng)用牽引、數(shù)據(jù)賦能,公平競(jìng)爭(zhēng)、安全有序,系統(tǒng)推進(jìn)、協(xié)同高效”的原則。這在加速推動(dòng)數(shù)據(jù)產(chǎn)生更大的價(jià)值的同時(shí),也亟須行業(yè)迅速提升數(shù)據(jù)安全、個(gè)人信息保護(hù)的安全水位。如何平衡數(shù)據(jù)要素的發(fā)展和個(gè)人信息的保護(hù)成為現(xiàn)實(shí)挑戰(zhàn)。

過去兩年,隱私計(jì)算成為解決數(shù)據(jù)安全和個(gè)人信息保護(hù)這一挑戰(zhàn)的核心技術(shù)。經(jīng)歷了2020年的隱私計(jì)算技術(shù)元年和2021年的隱私計(jì)算應(yīng)用元年,隱私計(jì)算技術(shù)在2022年將迎來(lái)大規(guī)模落地的需求。

我們判斷:2022年,無(wú)論從法規(guī)要求還是技術(shù)成熟度上,整個(gè)數(shù)據(jù)流通領(lǐng)域?qū)⒏鎰e數(shù)據(jù)明文時(shí)代,即將開啟“數(shù)據(jù)密態(tài)時(shí)代”的新征程。而要承載關(guān)系到國(guó)計(jì)民生各行各業(yè)的數(shù)據(jù)業(yè)務(wù),數(shù)據(jù)密態(tài)技術(shù)必須要在性能、可靠性、成本、適用性和安全性上達(dá)到作為基礎(chǔ)設(shè)施的關(guān)鍵指標(biāo)要求。現(xiàn)有任何單一的技術(shù)都很難達(dá)到這樣的要求,我們認(rèn)為可信隱私計(jì)算將是未來(lái)能夠助力行業(yè)、迎接數(shù)據(jù)密態(tài)時(shí)代挑戰(zhàn)的重要技術(shù)方向。

以下將詳細(xì)闡述數(shù)據(jù)要素行業(yè)正在到來(lái)的“密態(tài)時(shí)代”的特性、技術(shù)挑戰(zhàn)和技術(shù)方向。

數(shù)據(jù)密態(tài)的必要性

數(shù)據(jù)流通對(duì)于國(guó)家信息化進(jìn)程、產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型是必不可缺的,但直接的明文數(shù)據(jù)流通又有顯著危害。數(shù)據(jù)與其他資產(chǎn)明顯不同的是,很容易被拷貝復(fù)制。以前,為了便利數(shù)據(jù)生產(chǎn)加工和導(dǎo)入導(dǎo)出,許多應(yīng)用系統(tǒng)常常直接基于明文數(shù)據(jù)進(jìn)行開發(fā)和流通。在這個(gè)過程中,數(shù)據(jù)流過的每一家機(jī)構(gòu)都有可能會(huì)拷貝一份明文數(shù)據(jù)。隨著傳播路徑的擴(kuò)散,擁有這份數(shù)據(jù)的機(jī)構(gòu)越來(lái)越多。這些機(jī)構(gòu)里任何一家出現(xiàn)數(shù)據(jù)濫用或者泄露問題都會(huì)產(chǎn)生嚴(yán)重影響。

這種情況下,數(shù)據(jù)規(guī)?;孤兜娘L(fēng)險(xiǎn)急劇增大,危害個(gè)人隱私安全甚至國(guó)家安全。

例如,2017年,由于美國(guó)境外人員大量位于軍事基地,美國(guó)Strava軟件公布的用戶運(yùn)動(dòng)軌跡就泄露了軍事基地的位置;再譬如,如2017年9月7日,美國(guó)征信巨頭Equifax(艾克飛)因黑客入侵,導(dǎo)致約1.43億人的個(gè)人信息被泄露;還有,2016年,大學(xué)生徐玉玉被詐騙了9900元的學(xué)費(fèi),導(dǎo)致其傷心過度去世,而被騙的主要原因是她助學(xué)金的相關(guān)信息泄露。

2014年2月27日在中央網(wǎng)絡(luò)安全和信息化領(lǐng)導(dǎo)小組第一次會(huì)議上習(xí)總書記指出“沒有網(wǎng)絡(luò)安全就沒有國(guó)家安全,沒有信息化就沒有現(xiàn)代化。建設(shè)網(wǎng)絡(luò)強(qiáng)國(guó),要有自己的技術(shù),有過硬的技術(shù)”,我國(guó)后繼也出臺(tái)了多部法律平衡數(shù)據(jù)發(fā)展和信息安全之間的關(guān)系。

2017年實(shí)施的《中華人民共和國(guó)網(wǎng)絡(luò)安全法》第十八條指出“國(guó)家鼓勵(lì)開發(fā)網(wǎng)絡(luò)數(shù)據(jù)安全保護(hù)和利用技術(shù),促進(jìn)公共數(shù)據(jù)資源開放,推動(dòng)技術(shù)創(chuàng)新和經(jīng)濟(jì)社會(huì)發(fā)展。”同時(shí)也在第四十二條提出了要求“網(wǎng)絡(luò)運(yùn)營(yíng)者不得泄露、篡改、毀損其收集的個(gè)人信息;未經(jīng)被收集者同意,不得向他人提供個(gè)人信息。但是,經(jīng)過處理無(wú)法識(shí)別特定個(gè)人且不能復(fù)原的除外。網(wǎng)絡(luò)運(yùn)營(yíng)者應(yīng)當(dāng)采取技術(shù)措施和其他必要措施,確保其收集的個(gè)人信息安全,防止信息泄露、毀損、丟失。在發(fā)生或者可能發(fā)生個(gè)人信息泄露、毀損、丟失的情況時(shí),應(yīng)當(dāng)立即采取補(bǔ)救措施,按照規(guī)定及時(shí)告知用戶并向有關(guān)主管部門報(bào)告。”

2021年頒布的《數(shù)據(jù)安全法》第十六條、第二十七條在數(shù)據(jù)開發(fā)利用、數(shù)據(jù)安全、保護(hù)措施等方面提出了安全要求;《個(gè)人信息保護(hù)法》第五十一條明確要求個(gè)人信息處理者應(yīng)當(dāng)防止未經(jīng)授權(quán)的訪問以及個(gè)人信息泄露、篡改、丟失,在第三款指出需采取相應(yīng)的加密、去標(biāo)識(shí)化等安全技術(shù)措施。

同年出臺(tái)的《個(gè)人信息保護(hù)法》中,共出現(xiàn)了27次“同意”來(lái)規(guī)范個(gè)人信息的使用。這27個(gè)同意構(gòu)建了全新的“授權(quán)墻”。授權(quán)墻為公民的隱私權(quán)益構(gòu)建了一個(gè)堅(jiān)實(shí)的保障基礎(chǔ),是對(duì)個(gè)人隱私權(quán)益保障的一個(gè)巨大進(jìn)步。但我們也要清醒的認(rèn)識(shí)到,授權(quán)墻給數(shù)據(jù)要素的使用和價(jià)值流通也帶來(lái)了諸多挑戰(zhàn)。隨著技術(shù)的進(jìn)步,這些貫穿整個(gè)數(shù)據(jù)生命周期的挑戰(zhàn)將在相當(dāng)長(zhǎng)的時(shí)間內(nèi)持續(xù)存在。

面對(duì)數(shù)據(jù)要素發(fā)展和數(shù)據(jù)安全保護(hù)的雙訴求,數(shù)據(jù)密態(tài)無(wú)疑是當(dāng)前最好的選擇。一方面,運(yùn)營(yíng)者要想“確保其收集的個(gè)人信息安全”,最簡(jiǎn)單有效的就是保證其數(shù)據(jù)明文不被其他方獲得;另一方面,《個(gè)人信息保護(hù)法》規(guī)定了經(jīng)過匿名化的信息不再受“授權(quán)墻”制約,但明文的匿名化數(shù)據(jù)會(huì)丟失個(gè)體粒度的信息,也就是說(shuō),如果要保持?jǐn)?shù)據(jù)價(jià)值,匿名化后的數(shù)據(jù)也需要進(jìn)行密態(tài)化處理。

從技術(shù)實(shí)現(xiàn)上看,隨著技術(shù)的發(fā)展,支持?jǐn)?shù)據(jù)全程以密態(tài)參與加工與流通的隱私計(jì)算在隱私保護(hù)方面有著獨(dú)特的優(yōu)勢(shì)。在此基礎(chǔ)上,可信隱私計(jì)算突破計(jì)算性能、穩(wěn)定性、成本的瓶頸,助力行業(yè)正式邁向數(shù)據(jù)密態(tài)時(shí)代。

數(shù)據(jù)密態(tài)時(shí)代特征

目前,密態(tài)數(shù)據(jù)處理的規(guī)模,就和數(shù)據(jù)挖掘最初的時(shí)候差不多,只在少量、簡(jiǎn)單的場(chǎng)景有所應(yīng)用。未來(lái),密態(tài)數(shù)據(jù)處理的規(guī)模,也會(huì)像當(dāng)年數(shù)據(jù)挖掘一樣,迎來(lái)爆發(fā)性發(fā)展。

首先體現(xiàn)的是處理的場(chǎng)景會(huì)越來(lái)越多,深入到社會(huì)生產(chǎn)的方方面面。大多數(shù)場(chǎng)景都可以通過增加數(shù)據(jù)源提升效果,這些場(chǎng)景都會(huì)逐漸引入密態(tài)計(jì)算,也包括預(yù)測(cè)、推薦等很多實(shí)時(shí)場(chǎng)景。其次,處理的數(shù)據(jù)規(guī)模、機(jī)器學(xué)習(xí)模型的復(fù)雜程度也會(huì)逐漸增加,謀求更高的模型準(zhǔn)確度,這也是明文機(jī)器學(xué)習(xí)發(fā)展的重要軌跡。最后,同一個(gè)場(chǎng)景的參與方也會(huì)越來(lái)越多,這樣可以匯集更多維度的數(shù)據(jù),達(dá)到更好的數(shù)據(jù)利用效果。

在這種情況下,我們認(rèn)為,數(shù)據(jù)密態(tài)技術(shù)一定要達(dá)到作為廣泛性業(yè)務(wù)基礎(chǔ)設(shè)施的技術(shù)門檻要求,才能滿足數(shù)據(jù)密態(tài)時(shí)代的要求:

第一,性能要足夠高。在全場(chǎng)景覆蓋、大數(shù)據(jù)、復(fù)雜模型的情況下,只有足夠的性能才能滿足需求。理想情況下,對(duì)于樹模型這類中等規(guī)模的機(jī)器學(xué)習(xí)訓(xùn)練問題,性能要達(dá)到每小時(shí)處理億級(jí)數(shù)據(jù)。

第二,足夠穩(wěn)定。在全場(chǎng)景覆蓋、實(shí)時(shí)場(chǎng)景的情況下,密態(tài)計(jì)算要足夠的穩(wěn)定。密態(tài)計(jì)算要能夠達(dá)到和其他基礎(chǔ)設(shè)施一樣的穩(wěn)定性,在關(guān)鍵應(yīng)用領(lǐng)域至少能夠達(dá)到99.99%甚至更高。

第三,成本足夠低。為了不對(duì)現(xiàn)有計(jì)算資源和網(wǎng)絡(luò)資源造成嚴(yán)重沖擊,密態(tài)計(jì)算的成本膨脹,與明文計(jì)算相比成本增長(zhǎng)最好控制在一個(gè)數(shù)量級(jí)以內(nèi)。

第四,適用性足夠廣。在全場(chǎng)景覆蓋的情況下,密態(tài)計(jì)算必須要能夠支持任意的處理邏輯。尤其是,要能夠靈活支持不同的參與方數(shù)量。

第五,安全性足夠高且達(dá)成行業(yè)共識(shí)。密態(tài)計(jì)算的安全性要足夠高,客觀上要能夠抵御潛在的攻擊。另一方面,在滿足安全需求的情況下應(yīng)選擇性價(jià)比最高的方案,且該方案要能夠得到行業(yè)共識(shí)。

數(shù)據(jù)密態(tài)時(shí)代現(xiàn)面臨的技術(shù)挑戰(zhàn)

挑戰(zhàn)一:技術(shù)如何實(shí)現(xiàn)合規(guī)

第一,專數(shù)專用問題。

數(shù)據(jù)不是簡(jiǎn)單物品,數(shù)據(jù)復(fù)雜性超乎想象,它容易被復(fù)制、被加工。大部分?jǐn)?shù)據(jù)合規(guī)問題的核心在于“專數(shù)專用”,即數(shù)據(jù)不能隨意跨主體跨業(yè)務(wù)場(chǎng)景使用。

首先是理清楚首次收集數(shù)據(jù)的主體,然后是獲得充分授權(quán)后數(shù)據(jù)的歸屬主體,有了這些才能明確各方的權(quán)利和責(zé)任。這是后面數(shù)據(jù)流轉(zhuǎn)的基礎(chǔ)。其次需要根據(jù)業(yè)務(wù)場(chǎng)景2B和2C的授權(quán)情況來(lái)限定數(shù)據(jù)的合規(guī)使用范圍。在明文流通時(shí)代,這是很難被控制的。在數(shù)據(jù)密態(tài)時(shí)代,這可以通過密態(tài)技術(shù)來(lái)收口,有效的降低治理復(fù)雜度。

第二,個(gè)人信息授權(quán)問題。

個(gè)保法規(guī)定的27個(gè)同意形成了一道堅(jiān)固的授權(quán)墻。尤其是,每一個(gè)業(yè)務(wù)場(chǎng)景需單獨(dú)授權(quán)不能概括授權(quán),這對(duì)數(shù)據(jù)使用的影響是天翻地覆的。今天人工智能是數(shù)據(jù)驅(qū)動(dòng)智能,所有深度學(xué)習(xí)模型或者數(shù)字模型都需要無(wú)差別、無(wú)偏差數(shù)據(jù)才能訓(xùn)練出一個(gè)好的模型從而有效支持業(yè)務(wù)。但是在授權(quán)墻的影響下得到的數(shù)據(jù)很有可能是不理想的。例如,安全風(fēng)控場(chǎng)景下,惡意人員一定不會(huì)授權(quán)你查他。現(xiàn)在法律許可下主要有兩個(gè)路徑,一是匿名化,一是執(zhí)行合同的必須條件。在匿名化路徑方向,我們認(rèn)為數(shù)據(jù)“可算不可識(shí)”是行業(yè)發(fā)展必須要實(shí)現(xiàn)的一個(gè)平衡。

無(wú)授權(quán)場(chǎng)景要做好匿名化,在保證個(gè)人隱私權(quán)益前提下發(fā)揮數(shù)據(jù)價(jià)值;有授權(quán)場(chǎng)景下要專數(shù)專用,保障這個(gè)場(chǎng)景獲得數(shù)據(jù)只在這個(gè)場(chǎng)景里使用。

第三,數(shù)據(jù)的使用和流通要做到可審計(jì)可舉證。

隱私計(jì)算等技術(shù)在保護(hù)數(shù)據(jù)明文信息的同時(shí)也可能阻礙對(duì)數(shù)據(jù)實(shí)際使用范圍的審計(jì)監(jiān)控,實(shí)際使用中如果沒有妥善的管控同樣是可能導(dǎo)致侵犯用戶隱私權(quán)益或者造成敏感信息泄露的。因此,審計(jì)和固證是非常重要作用。

挑戰(zhàn)二:現(xiàn)有密態(tài)算法性能和組網(wǎng)可靠性嚴(yán)重不足的挑戰(zhàn)

隱私計(jì)算技術(shù)的復(fù)雜程度是遠(yuǎn)遠(yuǎn)高于常見的密碼算法。常見的密碼算法只是對(duì)數(shù)據(jù)進(jìn)行加密或者簽名操作,要保護(hù)的對(duì)象是固定不變的,可以認(rèn)為是對(duì)“靜態(tài)的物質(zhì)”進(jìn)行保護(hù)。隱私計(jì)算要保護(hù)的是計(jì)算過程,要保護(hù)的對(duì)象是豐富多樣的、運(yùn)行中不斷變化,可以認(rèn)為是對(duì)“復(fù)雜生態(tài)”進(jìn)行保護(hù)。后者的復(fù)雜性是遠(yuǎn)超前者的,不是一兩個(gè)簡(jiǎn)單的算法就能夠解決的。目前主要的隱私計(jì)算技術(shù)如下:

多方安全計(jì)算(MPC:Secure Muti-Party Computation)是指通過基于數(shù)學(xué)理論密碼協(xié)議達(dá)到前述目標(biāo),一般包括秘密分享、混淆電路、不經(jīng)意傳輸?shù)?,并與加法同態(tài)等配合使用。明文下的一個(gè)乘法在MPC中會(huì)膨脹到一個(gè)非對(duì)稱密碼運(yùn)算、一次公網(wǎng)交互,前者耗時(shí)一般在1ns級(jí)別,而后者會(huì)達(dá)到10ms級(jí)別,兩者差距非常大。允許批處理時(shí)可以進(jìn)行一些優(yōu)化,但剩余差距仍然有好幾個(gè)數(shù)量級(jí)。

需額外說(shuō)明的是,除法、比較等大量基礎(chǔ)操作都是由乘法構(gòu)成或者模擬出來(lái)的,也需要大量交互和計(jì)算。例如,一次兩方機(jī)器學(xué)習(xí)訓(xùn)練的公網(wǎng)交互次數(shù)高達(dá)幾萬(wàn)到幾十萬(wàn)。

“MPC+中心預(yù)計(jì)算”在MPC的基礎(chǔ)上引入中立第三方,以明文的形式做預(yù)計(jì)算。好處是不再需要非對(duì)稱等計(jì)算消耗大的運(yùn)算,但仍然需要公網(wǎng)傳輸,所以與明文的性能差距仍然非常大。另一個(gè)缺點(diǎn)是,當(dāng)?shù)谌脚c某個(gè)參與方共同作惡時(shí),能夠竊取其他方的數(shù)據(jù),所以也存在安全隱患。

聯(lián)邦學(xué)習(xí)(Federated Learning,F(xiàn)L)的底層也是采用MPC、加法同態(tài)等密碼協(xié)議,但是會(huì)把一些看似和原始數(shù)據(jù)無(wú)關(guān)的過程使用明文進(jìn)行計(jì)算,來(lái)提升性能。因?yàn)椴糠诌^程仍采用MPC等,所以耗時(shí)仍遠(yuǎn)遠(yuǎn)高于明文。另一方面,這些看似和原始數(shù)據(jù)無(wú)關(guān)的過程很有可能推導(dǎo)出原始數(shù)據(jù),所以也有安全隱患。

可信執(zhí)行環(huán)境(Trusted Execution Environment,TEE)能夠基于硬件提供一個(gè)隔離的運(yùn)行環(huán)境,其隔離性不受任何外部軟硬件和人員的影響。各方可以放心地將數(shù)據(jù)匯聚到TEE中進(jìn)行融合計(jì)算。這一切成立的前提是TEE相關(guān)技術(shù)被正確實(shí)現(xiàn),且無(wú)漏洞。歷史經(jīng)驗(yàn)表明,TEE會(huì)出現(xiàn)安全漏洞,但是因?yàn)榻Y(jié)構(gòu)簡(jiǎn)單,出現(xiàn)漏洞的概率比較小、也比較隱蔽。TEE主要的安全風(fēng)險(xiǎn)在于物理臨近攻擊與側(cè)信道攻擊,特別是由這些風(fēng)險(xiǎn)衍生的供應(yīng)鏈攻擊問題。TEE要發(fā)揮好其安全價(jià)值,必須要與TPM/TCM等全??尚偶夹g(shù)更緊密的結(jié)合。

全同態(tài)(Full Homomorphic Encryption,F(xiàn)HE)支持在密文上直接進(jìn)行計(jì)算,效果等同于在明文上進(jìn)行計(jì)算再加密。缺點(diǎn)是其計(jì)算消耗遠(yuǎn)大于MPC,只適用于小規(guī)模問題或者特定問題。特別是其數(shù)據(jù)膨脹問題非常嚴(yán)重,也是業(yè)界面臨的普遍難題。

總結(jié)一下:TEE以外的技術(shù)路線都有非常大的計(jì)算消耗或者公網(wǎng)傳輸消耗(或兩者都有)。這些問題,一方面會(huì)導(dǎo)致性能嚴(yán)重不足;另一方面,大量的公網(wǎng)交互還會(huì)導(dǎo)致穩(wěn)定性難以保障。而且,部分技術(shù)路線還存在安全隱患。TEE的主要問題是存在供應(yīng)鏈攻擊等安全隱患。

面對(duì)這些新挑戰(zhàn),我們看到行業(yè)的討論非常多,各個(gè)行業(yè)對(duì)隱私計(jì)算都非常看重。數(shù)據(jù)是當(dāng)今數(shù)字化業(yè)務(wù)的血液,數(shù)據(jù)背后業(yè)務(wù)太復(fù)雜、數(shù)據(jù)使用方式太復(fù)雜、規(guī)模太復(fù)雜,不是哪一項(xiàng)技術(shù)能解決所有問題,我們相信未來(lái)是多項(xiàng)技術(shù)相融合來(lái)解決這些復(fù)雜挑戰(zhàn),而可信隱私計(jì)算是其中最有希望的技術(shù)方向。

可信隱私計(jì)算是數(shù)據(jù)密態(tài)時(shí)代關(guān)鍵技術(shù)

我們認(rèn)為,隱私計(jì)算往前走、進(jìn)一步落地給產(chǎn)業(yè),并滿足合規(guī)要求,非常重要的方向是“可信隱私計(jì)算”。

可信隱私計(jì)算的核心是在隱私計(jì)算的技術(shù)體系以及技術(shù)實(shí)現(xiàn)層面提供可信支撐,對(duì)個(gè)人信息和敏感數(shù)據(jù)提供高效的、全生命周期的安全合規(guī)保障。業(yè)界可以在可信隱私計(jì)算的框架下有效地解決當(dāng)下面臨的合規(guī)、業(yè)務(wù)支撐、安全適用等挑戰(zhàn)。

隱私計(jì)算擁抱可信技術(shù)的三個(gè)需求:

第一,受控匿名化,需要可信。

匿名化,是指?jìng)€(gè)人信息經(jīng)過處理無(wú)法識(shí)別特定自然人且不能復(fù)原的過程。匿名化后的數(shù)據(jù)不再屬于個(gè)人信息。但開放空間中,絕對(duì)匿名化將導(dǎo)致個(gè)體顆粒度數(shù)據(jù)要素價(jià)值絕對(duì)的毀損。

絕對(duì)匿名化是實(shí)現(xiàn)不了數(shù)據(jù)價(jià)值的。在機(jī)器學(xué)習(xí)建模等數(shù)據(jù)利用的方式中,數(shù)據(jù)都是以個(gè)體粒度出現(xiàn)的,通過其多個(gè)屬性信息來(lái)推測(cè)未知信息。這種情況下,開放空間中的絕對(duì)匿名化和數(shù)據(jù)要素價(jià)值是兩個(gè)不可調(diào)和的對(duì)立面。數(shù)據(jù)要產(chǎn)生數(shù)據(jù)價(jià)值,屬性就需要含有個(gè)體信息,并且與其他個(gè)體區(qū)分度越高就越有價(jià)值。這樣,攻擊者通過屬性就能判斷所屬身份的范圍,綜合多個(gè)屬性就能確定具體的身份。遺憾的是,即便我們把屬性信息進(jìn)行充分模糊化,也難以避免這個(gè)問題。例如,極端情況下每個(gè)屬性信息都模糊到只剩1比特,如果這些屬性互不相關(guān),只需33個(gè)屬性就可能定位到具體的某個(gè)人(2^33=80億,全球人口數(shù))。學(xué)術(shù)界和工業(yè)界數(shù)十年來(lái)的研究和實(shí)踐也不斷驗(yàn)證了這個(gè)觀點(diǎn),成為行業(yè)共識(shí)。

相對(duì)匿名化是現(xiàn)實(shí)可行的技術(shù)。因此,在絕對(duì)匿名化無(wú)法滿足行業(yè)需求的情況下,相對(duì)匿名化逐漸成為了公認(rèn)的出路。相對(duì)匿名化的核心在于限定匿名化數(shù)據(jù)(包括身份去標(biāo)識(shí)與屬性密態(tài)化等)的使用范圍,嚴(yán)格禁止其與外部其他信息進(jìn)行關(guān)聯(lián)。因此,我們需要對(duì)各個(gè)數(shù)據(jù)通道進(jìn)行管控,對(duì)受控匿名化環(huán)境中對(duì)數(shù)據(jù)的存儲(chǔ)、傳輸、計(jì)算過程和研發(fā)過程的中間數(shù)據(jù),都做嚴(yán)格管控。特別是綜合利用動(dòng)態(tài)采樣K匿名、差分隱私噪音、泛化/有效位截?cái)嗟确乐咕冗^高(精度過高會(huì)導(dǎo)致有機(jī)會(huì)推算出哪些原始數(shù)據(jù)參與了運(yùn)算)等手段防止中間數(shù)據(jù)導(dǎo)致的潛在信息泄露。輸入的數(shù)據(jù)也可以視情況進(jìn)行區(qū)間化,弱化屬性數(shù)據(jù)和個(gè)體之間的關(guān)聯(lián)關(guān)系。

相對(duì)匿名化必須要結(jié)合受控環(huán)境進(jìn)行使用。即相對(duì)匿名化后的數(shù)據(jù)只能在受控環(huán)境中使用,而不能流出受控環(huán)境。

可信計(jì)算技術(shù)是實(shí)現(xiàn)上述受控環(huán)境的非常好的一個(gè)選擇,它的強(qiáng)隔離性使得我們不用擔(dān)心數(shù)據(jù)從受控環(huán)境中流出。另外,可信計(jì)算技術(shù)還提供遠(yuǎn)程驗(yàn)證功能,參與方能夠從網(wǎng)絡(luò)上確認(rèn)遠(yuǎn)端的設(shè)備是否使用符合要求的可信計(jì)算技術(shù),以及在隔離環(huán)境中運(yùn)行的應(yīng)用是否符合要求。遠(yuǎn)程驗(yàn)證使得參與方能夠控制數(shù)據(jù)的處理、輸出方式,從而進(jìn)一步確保數(shù)據(jù)安全可控。

我們認(rèn)為,在受控環(huán)境下的相對(duì)匿名化,實(shí)現(xiàn)可算不可識(shí),是對(duì)個(gè)人信息保障的關(guān)鍵核心技術(shù)之一。

第二,關(guān)鍵性業(yè)務(wù)支撐,需要可信。

目前計(jì)算過程需要跨廣域網(wǎng)的密態(tài)計(jì)算方法(以下簡(jiǎn)稱跨網(wǎng)密態(tài)計(jì)算,包括使用公網(wǎng)線路或者拉專線等場(chǎng)景)有以下幾個(gè)難以克服的缺點(diǎn):

大量的基礎(chǔ)運(yùn)算都需要公網(wǎng)交互。公網(wǎng)交互的時(shí)間消耗是遠(yuǎn)遠(yuǎn)高于明文計(jì)算的。即便能夠進(jìn)行一定程度的優(yōu)化,剩余的差距仍然非常巨大。

頻繁的公網(wǎng)交互會(huì)帶來(lái)穩(wěn)定性問題。公網(wǎng)因?yàn)榭陀^原因其穩(wěn)定性很難改善。而跨網(wǎng)密態(tài)計(jì)算的公網(wǎng)的交互次數(shù)、交互拓?fù)涠歼h(yuǎn)高于一般應(yīng)用,導(dǎo)致穩(wěn)定性保障難度也遠(yuǎn)高于一般應(yīng)用。

支撐大量數(shù)據(jù)交互的廣域網(wǎng)帶寬成本非常昂貴,實(shí)際達(dá)成的成本將非常高??缇W(wǎng)密態(tài)計(jì)算需要在不同的機(jī)構(gòu)內(nèi)部部署計(jì)算節(jié)點(diǎn),而其間的公網(wǎng)帶寬的購(gòu)買將是一筆巨大的成本,甚至遠(yuǎn)超節(jié)點(diǎn)硬件費(fèi)用。

綜合來(lái)看,跨網(wǎng)密態(tài)計(jì)算很難滿足密態(tài)時(shí)代的要求。

我們認(rèn)為,未來(lái)的大數(shù)據(jù)量、關(guān)鍵業(yè)務(wù)的密態(tài)計(jì)算應(yīng)以同網(wǎng)密態(tài)計(jì)算為主。同網(wǎng)密態(tài)計(jì)算不會(huì)有“跨廣域網(wǎng)”產(chǎn)生的性能開銷、穩(wěn)定性問題、成本問題等。另一方面,在不受“公網(wǎng)”制約后,同網(wǎng)密態(tài)計(jì)算可以使用芯片、高速傳輸技術(shù)等大幅提升性能。

目前同網(wǎng)密態(tài)技術(shù)主要有三種:可信執(zhí)行環(huán)境、全同態(tài)加密計(jì)算、可信密態(tài)技術(shù)??尚艌?zhí)行環(huán)境和全同態(tài)加密恰巧位于性能的兩個(gè)極端,前者非??欤?yàn)榘踩[患而使用場(chǎng)景受限;后者非常慢,適用場(chǎng)景非常少。兩者都不能很好的滿足密態(tài)時(shí)代的要求。

可信計(jì)算和密碼技術(shù)相融合能夠顯著提升綜合能力。在可信計(jì)算技術(shù)中引入密態(tài)計(jì)算技術(shù),讓可信執(zhí)行環(huán)境中運(yùn)行的是密文數(shù)據(jù),大幅提升安全性。這也是螞蟻集團(tuán)努力推進(jìn)的可信密態(tài)技術(shù)。可信密態(tài)技術(shù)有機(jī)地融合了可信計(jì)算技術(shù)與多方安全計(jì)算等密碼學(xué)技術(shù),將數(shù)據(jù)提供方和數(shù)據(jù)計(jì)算方分離,在安全可信的環(huán)境中實(shí)現(xiàn)基于密文的計(jì)算。它通過多個(gè)高速互聯(lián)(內(nèi)網(wǎng))的可信執(zhí)行環(huán)境聯(lián)合執(zhí)行密碼協(xié)議,對(duì)任意多個(gè)參與方提供隱私計(jì)算能力。它在可信執(zhí)行環(huán)境中出現(xiàn)的也是密態(tài)數(shù)據(jù),它的安全性較可信執(zhí)行環(huán)境有顯著提升;它不需要像跨網(wǎng)密態(tài)計(jì)算技術(shù)一樣進(jìn)行頻繁的公網(wǎng)交互,也沒有大幅的計(jì)算量膨脹。

可信密態(tài)計(jì)算的性能、可靠性、成本、適用性都較跨網(wǎng)密態(tài)技術(shù)有非常大的提升,安全性也有堅(jiān)實(shí)的保障。

第三,標(biāo)準(zhǔn)測(cè)評(píng)需要可信。

目前因?yàn)殡[私計(jì)算技術(shù)性能嚴(yán)重不足,人們會(huì)采取各種不同的方法通過犧牲安全性換取性能。再加上隱私計(jì)算技術(shù)有多種底層機(jī)制,以及它們之間不同的融合方式,導(dǎo)致隱私計(jì)算技術(shù)路線特別多。各個(gè)技術(shù)路線的安全性差異特別大,社會(huì)認(rèn)知也比較模糊。為了產(chǎn)業(yè)的健康發(fā)展,行業(yè)對(duì)各個(gè)產(chǎn)品的安全性給出準(zhǔn)確評(píng)估是至關(guān)重要的。

我們同時(shí)也清醒的認(rèn)識(shí)到,在實(shí)際的系統(tǒng)中,必然涉及到密碼學(xué)、代碼安全、網(wǎng)絡(luò)安全、AI算法安全等多個(gè)層面的復(fù)雜安全問題。其中一部分可以進(jìn)行形式化證明,但無(wú)法對(duì)所有環(huán)節(jié)和所有屬性進(jìn)行形式化證明。但這也是今天我們大部分技術(shù)場(chǎng)景面臨的安全挑戰(zhàn),甚至在密碼學(xué)設(shè)計(jì)本身也是如此。

我們回歸安全基本原則。首先安全的核心是對(duì)抗,對(duì)抗是多維度的、持續(xù)的。承載著行業(yè)數(shù)據(jù)命脈的關(guān)鍵基礎(chǔ)性技術(shù)必須清晰的分析面對(duì)各種已知和潛在攻擊的安全強(qiáng)度,這需要行業(yè)安全專家的廣泛介入;其次,一定需要根據(jù)場(chǎng)景安全分類分級(jí),不能用一個(gè)指標(biāo)鎖死各行各業(yè)不同業(yè)務(wù)的安全水位要求。

除了要保證隱私計(jì)算產(chǎn)品的安全性,使用過程中的存證和審計(jì)也是必不可少的。通過對(duì)輸入數(shù)據(jù)、計(jì)算行為進(jìn)行存證,可以有效的扼制投毒、濫用的情況。

隱私計(jì)算可審計(jì)可舉證也需要可信支撐。采用可信計(jì)算技術(shù)能夠防止存證行為被繞過。采用區(qū)塊鏈可以幫助固化存證證據(jù),防止存證的結(jié)果被惡意刪除、修改。這些也需要行業(yè)有可信的標(biāo)準(zhǔn)和測(cè)評(píng)來(lái)規(guī)范化發(fā)展。

總結(jié)

我們相信數(shù)據(jù)明文流通的時(shí)代在離我們遠(yuǎn)去,安全隱私也從行業(yè)奢侈品變成必需品。這一切都在加速推動(dòng)全行業(yè)邁向數(shù)據(jù)密態(tài)時(shí)代。而為了達(dá)到數(shù)據(jù)密態(tài)時(shí)代所需要的性能、可靠性、成本、適用性和安全性的要求,我們認(rèn)為“可信隱私計(jì)算”是最有希望的技術(shù)方向。將可信技術(shù)與隱私計(jì)算技術(shù)相融合,將軟硬件技術(shù)相融合,能夠更好的助力行業(yè)邁進(jìn)數(shù)據(jù)密態(tài)時(shí)代。

過去兩年,螞蟻集團(tuán)和國(guó)內(nèi)同行們?cè)陔[私計(jì)算技術(shù)上做了很多工作。隱私計(jì)算的專利TOP10榜上兩年前大部分是外國(guó)公司,非常高興這兩年國(guó)內(nèi)伙伴多了起來(lái)。螞蟻集團(tuán)也希望通過行業(yè)共建,和大家一起邁向“數(shù)據(jù)密態(tài)時(shí)代”,實(shí)現(xiàn)習(xí)總書記“網(wǎng)絡(luò)安全和信息化是一體之兩翼、驅(qū)動(dòng)之雙輪”的要求和期待。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論