AI訓(xùn)練的福音:關(guān)于合成數(shù)據(jù)的一切

科技行者
編譯
如今,我們正迎來合成數(shù)據(jù)這一新興行業(yè),有望全面破除上述困局。合成數(shù)據(jù)是指由計(jì)算機(jī)人工生成的數(shù)據(jù),可用于替代自現(xiàn)實(shí)世界中采集的真實(shí)數(shù)據(jù)。

1.jpg

如今,AI技術(shù)面臨數(shù)個(gè)難以攻克的核心挑戰(zhàn)。其不僅需要大量數(shù)據(jù)以提供準(zhǔn)確結(jié)果,同時(shí)也要求我們認(rèn)真挑選數(shù)據(jù)內(nèi)容以避免引入偏見,而且必須嚴(yán)格遵守日益苛刻的數(shù)據(jù)隱私法規(guī)。過去幾年以來,圍繞這些挑戰(zhàn)誕生出一系列解決方案——包括用于幫助識別并減少偏差/偏見的各類工具、用戶數(shù)據(jù)匿名化方案以及用于保證僅在用戶同意時(shí)收集數(shù)據(jù)的管理框架等等。然而,每一種解決方案都有著自己的問題與短板。

如今,我們正迎來合成數(shù)據(jù)這一新興行業(yè),有望全面破除上述困局。合成數(shù)據(jù)是指由計(jì)算機(jī)人工生成的數(shù)據(jù),可用于替代自現(xiàn)實(shí)世界中采集的真實(shí)數(shù)據(jù)。

合成數(shù)據(jù)集必須與真實(shí)數(shù)據(jù)集擁有相同的數(shù)學(xué)與統(tǒng)計(jì)學(xué)屬性,但不可明確指代真實(shí)個(gè)體。大家可以將其理解為真實(shí)數(shù)據(jù)的一種數(shù)字化鏡像,能夠在統(tǒng)計(jì)學(xué)層面反映實(shí)際情況。如此一來,我們就可以在完全虛擬的場域當(dāng)中訓(xùn)練AI系統(tǒng),并更輕松地針對醫(yī)療保健、零售、金融、運(yùn)輸乃至農(nóng)業(yè)等各類用例實(shí)現(xiàn)數(shù)據(jù)定制。

由此掀起的革命浪潮正在孕育當(dāng)中。StartUs Insights去年6月發(fā)布的研究結(jié)果表明,已經(jīng)有50多家供應(yīng)商開發(fā)出合成數(shù)據(jù)解決方案。但在具體介紹領(lǐng)先廠商之前,我們先來了解合成數(shù)據(jù)能夠解決哪些具體問題。

真實(shí)數(shù)據(jù)帶來的大麻煩

過去幾年以來,人們越來越關(guān)注數(shù)據(jù)集中的固有偏差/偏見如何在無意之間給AI算法帶來永久存在的系統(tǒng)性歧視。根據(jù)Gartner公司的預(yù)測,到2022年,由數(shù)據(jù)、算法或AI項(xiàng)目管理團(tuán)隊(duì)引入的偏差/偏見將在所有錯(cuò)誤交付結(jié)果中占據(jù)85%的比例。

AI算法的激增也引發(fā)了人們對于數(shù)據(jù)隱私的日益關(guān)注。為此,歐盟通過GDPR、加利福尼亞州頒布州內(nèi)隱私法案,弗吉尼亞州最近也著手制定更為嚴(yán)苛的消費(fèi)者數(shù)據(jù)隱私與保護(hù)條款。

相關(guān)法律的出臺,使消費(fèi)者能夠更好地控制其個(gè)人數(shù)據(jù)。例如,弗吉尼亞州的新法律向消費(fèi)者授予訪問、更正、刪除及獲取個(gè)人數(shù)據(jù)副本的權(quán)利,同時(shí)也允許消費(fèi)者隨時(shí)拒絕企業(yè)銷售其個(gè)人數(shù)據(jù)、或者出于針對性廣告發(fā)布等目的對個(gè)人數(shù)據(jù)/資料進(jìn)行算法訪問的行為。

通過限制信息訪問渠道,個(gè)人信息確實(shí)得到了有效保護(hù),但這同時(shí)也將犧牲算法的預(yù)測效果。要獲得高準(zhǔn)確性AI算法,模型希望數(shù)據(jù)供應(yīng)越多越好;而如果得不到充足的數(shù)據(jù),則AI優(yōu)勢在實(shí)際應(yīng)用(例如協(xié)助醫(yī)學(xué)診斷及藥物研究)方面的表現(xiàn)也可能受到影響。

另一種隱私問題解決方案則是消費(fèi)者信息匿名化。例如,我們可以通過掩蔽或消除身份特征(例如刪除電子商務(wù)交易記錄中的姓名、信用卡號,或者清除醫(yī)療記錄中的身份內(nèi)容等)實(shí)現(xiàn)個(gè)人數(shù)據(jù)匿名化。但越來越多的證據(jù)表明,即使對某一數(shù)據(jù)源完成匿名處理,對方仍能夠利用不慎泄露的其他消費(fèi)者數(shù)據(jù)集實(shí)現(xiàn)內(nèi)容關(guān)聯(lián)與還原。實(shí)際上,通過合并來自多個(gè)來源的數(shù)據(jù),即使經(jīng)過一定程度的匿名化,惡意方仍然能夠整理出令人驚訝的清晰身份形象。在某些特定情況下,對方甚至能夠直接關(guān)聯(lián)公共來源數(shù)據(jù),在無需任何惡意攻擊的前提下完成身份定位。

合成數(shù)據(jù)解決方案

合成數(shù)據(jù)承諾在實(shí)現(xiàn)AI優(yōu)勢的同時(shí),消除各類負(fù)面影響。除了將真實(shí)個(gè)人數(shù)據(jù)排除在外,合成數(shù)據(jù)還強(qiáng)調(diào)糾正現(xiàn)實(shí)場景中產(chǎn)生的種種偏差/偏見,由此實(shí)現(xiàn)超越真實(shí)數(shù)據(jù)的素材質(zhì)量。

除了高度依賴個(gè)人數(shù)據(jù)的應(yīng)用場景之外,合成數(shù)據(jù)還有其他多種用途。其一就是復(fù)雜的計(jì)算機(jī)視覺建模,這里往往涉及多種因素的實(shí)時(shí)交互。我們可以使用由高級游戲引擎合成的視頻數(shù)據(jù)集創(chuàng)建出超逼真圖像,用以描繪自動(dòng)駕駛場景中可能發(fā)生的各種事件,由此獲得現(xiàn)實(shí)場景下幾乎不可能捕捉到、或者可能極度危險(xiǎn)的圖像或視頻。這些合成數(shù)據(jù)集的出現(xiàn),極大提升并改善了自動(dòng)駕駛系統(tǒng)的訓(xùn)練效率與效果。

2.jpg

圖:使用合成圖像訓(xùn)練自動(dòng)駕駛車輛算法

頗為諷刺的是,用于構(gòu)建合成數(shù)據(jù)的主要工具之一,恰巧與創(chuàng)建Deepfake深度偽造視頻的工具相同。二者均使用到生成對抗網(wǎng)絡(luò),即GAN。GAN的本質(zhì)在于創(chuàng)建兩套神經(jīng)網(wǎng)絡(luò),其一生成合成數(shù)據(jù),其二則嘗試檢測合成數(shù)據(jù)是否真實(shí)。在整個(gè)操作循環(huán)當(dāng)中,生成器網(wǎng)絡(luò)將不斷改善數(shù)據(jù)質(zhì)量,直到分類器無法找出真實(shí)數(shù)據(jù)與合成數(shù)據(jù)之間的差異為止。

新興生態(tài)系統(tǒng)

Forrester Research最近確定了多項(xiàng)關(guān)鍵技術(shù),其中就將合成數(shù)據(jù)列為實(shí)現(xiàn)“AI 2.0”的必要因素之一,使其能夠從本質(zhì)上擴(kuò)展AI的應(yīng)用可能性。通過更完備的數(shù)據(jù)匿名化功能以及強(qiáng)大的固有偏差/偏見糾正能力,再加上批量創(chuàng)建以往難于獲取的數(shù)據(jù),合成數(shù)據(jù)有望成為多種大數(shù)據(jù)應(yīng)用的效率之選。

合成數(shù)據(jù)還具有其他一系列優(yōu)勢:您可以快速創(chuàng)建數(shù)據(jù)集,并重復(fù)使用這些標(biāo)記數(shù)據(jù)實(shí)現(xiàn)監(jiān)督學(xué)習(xí)。另外,合成數(shù)據(jù)不像真實(shí)數(shù)據(jù)那樣需要清洗與維護(hù),因此至少從理論上講,這項(xiàng)技術(shù)能夠節(jié)約下大量時(shí)間與成本。

目前,市場上已經(jīng)出現(xiàn)了幾家信譽(yù)卓著的合成數(shù)據(jù)廠商。IBM表示其正著力推進(jìn)數(shù)據(jù)制造業(yè)務(wù),希望通過創(chuàng)建合成測試數(shù)據(jù)以消除機(jī)密信息泄露風(fēng)險(xiǎn)、解決GDPR及其他法規(guī)問題。AWS則開發(fā)出內(nèi)部合成數(shù)據(jù)工具,通過生成的數(shù)據(jù)集不斷對Alexa進(jìn)行新語種訓(xùn)練。微軟還與哈佛大學(xué)合作開發(fā)一款工具,其中的合成數(shù)據(jù)功能可以增強(qiáng)各研究部門之間的協(xié)作。雖然形勢一片大好,但合成數(shù)據(jù)仍處于起步階段,市場走向?qū)⒃诤艽蟪潭壬嫌尚屡d企業(yè)的發(fā)展所決定。

下面,我們整理出一份簡單的合成數(shù)據(jù)行業(yè)早期領(lǐng)導(dǎo)廠商清單,具體信息來自G2與StartUs Insights等行業(yè)研究組織。

1、AiFi—使用合成數(shù)據(jù)模擬零售商店與購物者行為特征。

2、AI.Reverie—生成合成數(shù)據(jù)以訓(xùn)練計(jì)算機(jī)視覺算法,借此實(shí)現(xiàn)活動(dòng)識別、目標(biāo)檢測與劃分。應(yīng)用范圍包括智慧城市、稀有物質(zhì)示板識別、農(nóng)業(yè)以及智能零售等場景。

3、Anyverse—使用原始傳感器數(shù)據(jù)、圖像處理功能以及汽車行業(yè)的定制化激光雷達(dá)創(chuàng)建合成數(shù)據(jù)集,借此實(shí)現(xiàn)場景模擬。

4、Cvedia—創(chuàng)建合成圖像,簡化標(biāo)記、真實(shí)與視覺數(shù)據(jù)的收集流程。這套模擬平臺使用多種傳感器合成逼真環(huán)境,借此創(chuàng)建出豐富的實(shí)證數(shù)據(jù)集。

5、DataGen—室內(nèi)環(huán)境用例,支持智能商店、家用機(jī)器人及增強(qiáng)現(xiàn)實(shí)等場景。

6、Diveplane—為醫(yī)療保健行業(yè)創(chuàng)建與原始數(shù)據(jù)具有相同統(tǒng)計(jì)學(xué)屬性的合成“孿生”數(shù)據(jù)集。

7、Gretel—為開發(fā)人員提供與GitHub數(shù)據(jù)等效的合成數(shù)據(jù)集,其中包含與原始數(shù)據(jù)源相同的洞見。

8、Hazy—生成數(shù)據(jù)集以增強(qiáng)欺詐與洗錢檢測能力,用以打擊各類金融犯罪。

9、Mostly AI—專注于保險(xiǎn)與金融領(lǐng)域,也是最早創(chuàng)建合成結(jié)構(gòu)化數(shù)據(jù)的廠商之一。

10、OneView–開發(fā)虛擬合成數(shù)據(jù)集,用于通過機(jī)器學(xué)習(xí)算法分析地球觀測圖像。

來源丨VentureBeat

編譯丨科技行者

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論