婷婷色一区二区,怡春院欧美一区二区三区免费,亚洲欧美日韩精品永久在线

AI訓(xùn)練的福音：關(guān)于合成數(shù)據(jù)的一切

2021-03-25 08:43

科技行者

編譯

如今，我們正迎來合成數(shù)據(jù)這一新興行業(yè)，有望全面破除上述困局。合成數(shù)據(jù)是指由計(jì)算機(jī)人工生成的數(shù)據(jù)，可用于替代自現(xiàn)實(shí)世界中采集的真實(shí)數(shù)據(jù)。

如今，AI技術(shù)面臨數(shù)個(gè)難以攻克的核心挑戰(zhàn)。其不僅需要大量數(shù)據(jù)以提供準(zhǔn)確結(jié)果，同時(shí)也要求我們認(rèn)真挑選數(shù)據(jù)內(nèi)容以避免引入偏見，而且必須嚴(yán)格遵守日益苛刻的數(shù)據(jù)隱私法規(guī)。過去幾年以來，圍繞這些挑戰(zhàn)誕生出一系列解決方案——包括用于幫助識別并減少偏差/偏見的各類工具、用戶數(shù)據(jù)匿名化方案以及用于保證僅在用戶同意時(shí)收集數(shù)據(jù)的管理框架等等。然而，每一種解決方案都有著自己的問題與短板。

合成數(shù)據(jù)集必須與真實(shí)數(shù)據(jù)集擁有相同的數(shù)學(xué)與統(tǒng)計(jì)學(xué)屬性，但不可明確指代真實(shí)個(gè)體。大家可以將其理解為真實(shí)數(shù)據(jù)的一種數(shù)字化鏡像，能夠在統(tǒng)計(jì)學(xué)層面反映實(shí)際情況。如此一來，我們就可以在完全虛擬的場域當(dāng)中訓(xùn)練AI系統(tǒng)，并更輕松地針對醫(yī)療保健、零售、金融、運(yùn)輸乃至農(nóng)業(yè)等各類用例實(shí)現(xiàn)數(shù)據(jù)定制。

由此掀起的革命浪潮正在孕育當(dāng)中。StartUs Insights去年6月發(fā)布的研究結(jié)果表明，已經(jīng)有50多家供應(yīng)商開發(fā)出合成數(shù)據(jù)解決方案。但在具體介紹領(lǐng)先廠商之前，我們先來了解合成數(shù)據(jù)能夠解決哪些具體問題。

真實(shí)數(shù)據(jù)帶來的大麻煩

過去幾年以來，人們越來越關(guān)注數(shù)據(jù)集中的固有偏差/偏見如何在無意之間給AI算法帶來永久存在的系統(tǒng)性歧視。根據(jù)Gartner公司的預(yù)測，到2022年，由數(shù)據(jù)、算法或AI項(xiàng)目管理團(tuán)隊(duì)引入的偏差/偏見將在所有錯(cuò)誤交付結(jié)果中占據(jù)85%的比例。

AI算法的激增也引發(fā)了人們對于數(shù)據(jù)隱私的日益關(guān)注。為此，歐盟通過GDPR、加利福尼亞州頒布州內(nèi)隱私法案，弗吉尼亞州最近也著手制定更為嚴(yán)苛的消費(fèi)者數(shù)據(jù)隱私與保護(hù)條款。

相關(guān)法律的出臺，使消費(fèi)者能夠更好地控制其個(gè)人數(shù)據(jù)。例如，弗吉尼亞州的新法律向消費(fèi)者授予訪問、更正、刪除及獲取個(gè)人數(shù)據(jù)副本的權(quán)利，同時(shí)也允許消費(fèi)者隨時(shí)拒絕企業(yè)銷售其個(gè)人數(shù)據(jù)、或者出于針對性廣告發(fā)布等目的對個(gè)人數(shù)據(jù)/資料進(jìn)行算法訪問的行為。

通過限制信息訪問渠道，個(gè)人信息確實(shí)得到了有效保護(hù)，但這同時(shí)也將犧牲算法的預(yù)測效果。要獲得高準(zhǔn)確性AI算法，模型希望數(shù)據(jù)供應(yīng)越多越好;而如果得不到充足的數(shù)據(jù)，則AI優(yōu)勢在實(shí)際應(yīng)用(例如協(xié)助醫(yī)學(xué)診斷及藥物研究)方面的表現(xiàn)也可能受到影響。

另一種隱私問題解決方案則是消費(fèi)者信息匿名化。例如，我們可以通過掩蔽或消除身份特征(例如刪除電子商務(wù)交易記錄中的姓名、信用卡號，或者清除醫(yī)療記錄中的身份內(nèi)容等)實(shí)現(xiàn)個(gè)人數(shù)據(jù)匿名化。但越來越多的證據(jù)表明，即使對某一數(shù)據(jù)源完成匿名處理，對方仍能夠利用不慎泄露的其他消費(fèi)者數(shù)據(jù)集實(shí)現(xiàn)內(nèi)容關(guān)聯(lián)與還原。實(shí)際上，通過合并來自多個(gè)來源的數(shù)據(jù)，即使經(jīng)過一定程度的匿名化，惡意方仍然能夠整理出令人驚訝的清晰身份形象。在某些特定情況下，對方甚至能夠直接關(guān)聯(lián)公共來源數(shù)據(jù)，在無需任何惡意攻擊的前提下完成身份定位。

合成數(shù)據(jù)解決方案

合成數(shù)據(jù)承諾在實(shí)現(xiàn)AI優(yōu)勢的同時(shí)，消除各類負(fù)面影響。除了將真實(shí)個(gè)人數(shù)據(jù)排除在外，合成數(shù)據(jù)還強(qiáng)調(diào)糾正現(xiàn)實(shí)場景中產(chǎn)生的種種偏差/偏見，由此實(shí)現(xiàn)超越真實(shí)數(shù)據(jù)的素材質(zhì)量。

除了高度依賴個(gè)人數(shù)據(jù)的應(yīng)用場景之外，合成數(shù)據(jù)還有其他多種用途。其一就是復(fù)雜的計(jì)算機(jī)視覺建模，這里往往涉及多種因素的實(shí)時(shí)交互。我們可以使用由高級游戲引擎合成的視頻數(shù)據(jù)集創(chuàng)建出超逼真圖像，用以描繪自動(dòng)駕駛場景中可能發(fā)生的各種事件，由此獲得現(xiàn)實(shí)場景下幾乎不可能捕捉到、或者可能極度危險(xiǎn)的圖像或視頻。這些合成數(shù)據(jù)集的出現(xiàn)，極大提升并改善了自動(dòng)駕駛系統(tǒng)的訓(xùn)練效率與效果。

圖：使用合成圖像訓(xùn)練自動(dòng)駕駛車輛算法

頗為諷刺的是，用于構(gòu)建合成數(shù)據(jù)的主要工具之一，恰巧與創(chuàng)建Deepfake深度偽造視頻的工具相同。二者均使用到生成對抗網(wǎng)絡(luò)，即GAN。GAN的本質(zhì)在于創(chuàng)建兩套神經(jīng)網(wǎng)絡(luò)，其一生成合成數(shù)據(jù)，其二則嘗試檢測合成數(shù)據(jù)是否真實(shí)。在整個(gè)操作循環(huán)當(dāng)中，生成器網(wǎng)絡(luò)將不斷改善數(shù)據(jù)質(zhì)量，直到分類器無法找出真實(shí)數(shù)據(jù)與合成數(shù)據(jù)之間的差異為止。

新興生態(tài)系統(tǒng)

Forrester Research最近確定了多項(xiàng)關(guān)鍵技術(shù)，其中就將合成數(shù)據(jù)列為實(shí)現(xiàn)“AI 2.0”的必要因素之一，使其能夠從本質(zhì)上擴(kuò)展AI的應(yīng)用可能性。通過更完備的數(shù)據(jù)匿名化功能以及強(qiáng)大的固有偏差/偏見糾正能力，再加上批量創(chuàng)建以往難于獲取的數(shù)據(jù)，合成數(shù)據(jù)有望成為多種大數(shù)據(jù)應(yīng)用的效率之選。

合成數(shù)據(jù)還具有其他一系列優(yōu)勢：您可以快速創(chuàng)建數(shù)據(jù)集，并重復(fù)使用這些標(biāo)記數(shù)據(jù)實(shí)現(xiàn)監(jiān)督學(xué)習(xí)。另外，合成數(shù)據(jù)不像真實(shí)數(shù)據(jù)那樣需要清洗與維護(hù)，因此至少從理論上講，這項(xiàng)技術(shù)能夠節(jié)約下大量時(shí)間與成本。

目前，市場上已經(jīng)出現(xiàn)了幾家信譽(yù)卓著的合成數(shù)據(jù)廠商。IBM表示其正著力推進(jìn)數(shù)據(jù)制造業(yè)務(wù)，希望通過創(chuàng)建合成測試數(shù)據(jù)以消除機(jī)密信息泄露風(fēng)險(xiǎn)、解決GDPR及其他法規(guī)問題。AWS則開發(fā)出內(nèi)部合成數(shù)據(jù)工具，通過生成的數(shù)據(jù)集不斷對Alexa進(jìn)行新語種訓(xùn)練。微軟還與哈佛大學(xué)合作開發(fā)一款工具，其中的合成數(shù)據(jù)功能可以增強(qiáng)各研究部門之間的協(xié)作。雖然形勢一片大好，但合成數(shù)據(jù)仍處于起步階段，市場走向?qū)⒃诤艽蟪潭壬嫌尚屡d企業(yè)的發(fā)展所決定。

下面，我們整理出一份簡單的合成數(shù)據(jù)行業(yè)早期領(lǐng)導(dǎo)廠商清單，具體信息來自G2與StartUs Insights等行業(yè)研究組織。

1、AiFi—使用合成數(shù)據(jù)模擬零售商店與購物者行為特征。

2、AI.Reverie—生成合成數(shù)據(jù)以訓(xùn)練計(jì)算機(jī)視覺算法，借此實(shí)現(xiàn)活動(dòng)識別、目標(biāo)檢測與劃分。應(yīng)用范圍包括智慧城市、稀有物質(zhì)示板識別、農(nóng)業(yè)以及智能零售等場景。

3、Anyverse—使用原始傳感器數(shù)據(jù)、圖像處理功能以及汽車行業(yè)的定制化激光雷達(dá)創(chuàng)建合成數(shù)據(jù)集，借此實(shí)現(xiàn)場景模擬。

4、Cvedia—創(chuàng)建合成圖像，簡化標(biāo)記、真實(shí)與視覺數(shù)據(jù)的收集流程。這套模擬平臺使用多種傳感器合成逼真環(huán)境，借此創(chuàng)建出豐富的實(shí)證數(shù)據(jù)集。

5、DataGen—室內(nèi)環(huán)境用例，支持智能商店、家用機(jī)器人及增強(qiáng)現(xiàn)實(shí)等場景。

6、Diveplane—為醫(yī)療保健行業(yè)創(chuàng)建與原始數(shù)據(jù)具有相同統(tǒng)計(jì)學(xué)屬性的合成“孿生”數(shù)據(jù)集。

7、Gretel—為開發(fā)人員提供與GitHub數(shù)據(jù)等效的合成數(shù)據(jù)集，其中包含與原始數(shù)據(jù)源相同的洞見。

8、Hazy—生成數(shù)據(jù)集以增強(qiáng)欺詐與洗錢檢測能力，用以打擊各類金融犯罪。

9、Mostly AI—專注于保險(xiǎn)與金融領(lǐng)域，也是最早創(chuàng)建合成結(jié)構(gòu)化數(shù)據(jù)的廠商之一。

10、OneView–開發(fā)虛擬合成數(shù)據(jù)集，用于通過機(jī)器學(xué)習(xí)算法分析地球觀測圖像。

來源丨VentureBeat

編譯丨科技行者

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

打破傳統(tǒng)配電運(yùn)維，驅(qū)動(dòng)數(shù)據(jù)中心智能配電的變革

AI訓(xùn)練的福音：關(guān)于合成數(shù)據(jù)的一切

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

AI訓(xùn)練的福音：關(guān)于合成數(shù)據(jù)的一切

最新評論（評論僅代表用戶觀點(diǎn)）

當(dāng)AI邂逅域名，會擦出怎樣的“火花”

算網(wǎng)建設(shè)面臨兩大痛點(diǎn)，三大運(yùn)營商如何應(yīng)對？

花樣滑冰比賽背后的“AI裁判”

業(yè)主如何適應(yīng)智慧城市新時(shí)代？

本月熱門

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

長虹佳華數(shù)智賦能做新科技牽引高質(zhì)量成長生態(tài)好伙伴

“以數(shù)見智數(shù)智共生”2021中國大數(shù)據(jù)技術(shù)應(yīng)用大會在京隆重召開

中科星云獲“2024數(shù)字化創(chuàng)新優(yōu)秀解決方案提供商”與“2024數(shù)字化轉(zhuǎn)型杰出云服務(wù)商”雙獎(jiǎng)項(xiàng)

艾伯信創(chuàng)榮獲“2022信創(chuàng)電子終端最具影響力企業(yè)”

山西路橋集團(tuán)數(shù)字化頂層規(guī)劃解決方案

i 南昌——云上（南昌）大數(shù)據(jù)運(yùn)營有限公司

熱點(diǎn)資訊

自動(dòng)化測試有哪些常見的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

打破傳統(tǒng)配電運(yùn)維，驅(qū)動(dòng)數(shù)據(jù)中心智能配電的變革

一文看懂5G射頻的“黑科技”

AI訓(xùn)練的福音：關(guān)于合成數(shù)據(jù)的一切

最新評論（評論僅代表用戶觀點(diǎn)）

欄目推薦

當(dāng)AI邂逅域名，會擦出怎樣的“火花”

算網(wǎng)建設(shè)面臨兩大痛點(diǎn)，三大運(yùn)營商如何應(yīng)對？

花樣滑冰比賽背后的“AI裁判”

業(yè)主如何適應(yīng)智慧城市新時(shí)代？

本月熱門

精選文章

熱點(diǎn)資訊

打破傳統(tǒng)配電運(yùn)維，驅(qū)動(dòng)數(shù)據(jù)中心智能配電的變革

一文看懂5G射頻的“黑科技”

當(dāng)AI邂逅域名，會擦出怎樣的“火花”

算網(wǎng)建設(shè)面臨兩大痛點(diǎn)，三大運(yùn)營商如何應(yīng)對？

業(yè)主如何適應(yīng)智慧城市新時(shí)代？

打破傳統(tǒng)配電運(yùn)維，驅(qū)動(dòng)數(shù)據(jù)中心智能配電的變革