啊轻点灬大JI巴太粗太长了在线,亚洲аv天堂手机版在线观看

未來(lái)十年，AI迎來(lái)“小數(shù)據(jù)”時(shí)代？

2022-02-21 11:34

科技云報(bào)道

傳統(tǒng)觀點(diǎn)認(rèn)為，大量數(shù)據(jù)支撐起了尖端AI的發(fā)展，大數(shù)據(jù)也一直被奉為打造成功機(jī)器學(xué)習(xí)項(xiàng)目的關(guān)鍵之匙。作為深度學(xué)習(xí)的引擎，大數(shù)據(jù)與大模型已經(jīng)成功運(yùn)行了15年。

“不要相信那種（基于海量數(shù)據(jù)的AI優(yōu)勢(shì)）炒作。”作為全球AI和機(jī)器學(xué)習(xí)領(lǐng)域最權(quán)威的學(xué)者之一，吳恩達(dá)教授近期談到自己對(duì)下一步AI趨勢(shì)的看法。

圖：吳恩達(dá)教授

從事AI研究的人都非常清楚，數(shù)據(jù)在AI發(fā)展中扮演著至關(guān)重要的角色。

如今，預(yù)訓(xùn)練大模型已成為各家打造AI基礎(chǔ)設(shè)施的利器，業(yè)界出現(xiàn)了各種由大數(shù)據(jù)構(gòu)建出的大模型，例如：

Switch Transformer

谷歌于2021年1月11日提出，聲稱(chēng)參數(shù)量從GPT-3的1750億提高到1.6萬(wàn)億。Switch Transformer基于稀疏激活的專(zhuān)家模型(Mixture of Experts)，論文中提到在計(jì)算資源相同的情況下，訓(xùn)練速度可以達(dá)到T5(Text-To-Text Transfer Transformer)模型的4-7倍。

MT-NLG

2021年年底，英偉達(dá)與微軟聯(lián)合發(fā)布了MT-NLG，該模型含參數(shù)5300億個(gè)，宣稱(chēng)是目前最大的且最強(qiáng)的語(yǔ)言生成預(yù)訓(xùn)練模型。

悟道2.0

2021年6月，北京智源研究院發(fā)布悟道2.0，參數(shù)規(guī)模達(dá)到1.75萬(wàn)億，是GPT-3的10倍，超過(guò)了谷歌Switch Transformer的1.6萬(wàn)億參數(shù)記錄。

“封神榜”

2021年11月，在深圳IDEA大會(huì)上，粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院（簡(jiǎn)稱(chēng)“IDEA”）理事長(zhǎng)沈向洋正式宣布，開(kāi)啟“封神榜”大模型開(kāi)源計(jì)劃，涵蓋五個(gè)系列的億級(jí)自然語(yǔ)言預(yù)訓(xùn)練大模型，其中包括了最大的開(kāi)源中文BERT大模型“二郎神”系列。

但值得注意的是，在某些場(chǎng)景下，大數(shù)據(jù)并不適用，“小數(shù)據(jù)”才是更好的解決方案。

未來(lái)AI從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)

盡管業(yè)界在大數(shù)據(jù)和大模型取得了飛躍性的成果，但是這種規(guī)?；椒ǎ⒉贿m用于數(shù)據(jù)集不夠龐大的新興行業(yè)或傳統(tǒng)行業(yè)。

在傳統(tǒng)行業(yè)，基于公開(kāi)數(shù)據(jù)的預(yù)訓(xùn)練的大模型幾乎派不上用場(chǎng)。

“龐大的搜索數(shù)據(jù)、經(jīng)濟(jì)數(shù)據(jù)對(duì)于檢測(cè)零部件缺陷毫無(wú)用處，對(duì)于醫(yī)療記錄也沒(méi)有太大的幫助。”吳恩達(dá)教授表示。

更困難的是，與可獲取海量用戶(hù)數(shù)據(jù)的互聯(lián)網(wǎng)公司不同，傳統(tǒng)企業(yè)沒(méi)有辦法收集海量的特定數(shù)據(jù)來(lái)支撐AI訓(xùn)練。

例如，在汽車(chē)制造業(yè)中，由于精益6-sigma管理技術(shù)的廣泛應(yīng)用，大多數(shù)零件制造商和一級(jí)供應(yīng)商都盡量保證每百萬(wàn)批次的產(chǎn)品中最多出現(xiàn)4個(gè)不合格產(chǎn)品。于是，制造商們就缺少了不合格產(chǎn)品的樣本數(shù)據(jù)，從而很難訓(xùn)練出性能良好的用于產(chǎn)品質(zhì)檢的視覺(jué)檢測(cè)模型。

最近一次的MAPI調(diào)查顯示：58%的研究對(duì)象認(rèn)為，部署AI解決方案最主要的困難是數(shù)據(jù)源的缺乏。

正如吳恩達(dá)教授所言：“過(guò)去十年，AI最大的轉(zhuǎn)變是深度學(xué)習(xí)，而接下來(lái)的十年，我認(rèn)為會(huì)轉(zhuǎn)向以數(shù)據(jù)為中心。隨著神經(jīng)網(wǎng)絡(luò)架構(gòu)的成熟，對(duì)于許多實(shí)際應(yīng)用來(lái)說(shuō)，瓶頸將會(huì)存在于“如何獲取、開(kāi)發(fā)所需要的數(shù)據(jù)”。

隨著各國(guó)數(shù)據(jù)和隱私安全法規(guī)紛紛落位，對(duì)AI技術(shù)監(jiān)管收緊，AI的大數(shù)據(jù)紅利期已經(jīng)一去不復(fù)返。

根據(jù)Gartner的報(bào)告，到2025年，70%的組織將被迫將重點(diǎn)從大數(shù)據(jù)轉(zhuǎn)移到小數(shù)據(jù)和泛數(shù)據(jù)，為分析提供更多上下文——并減少AI對(duì)數(shù)據(jù)的需求。

但這并不意味著AI的發(fā)展會(huì)受阻。相反，在小數(shù)據(jù)時(shí)代，AI同樣大有可為。

吳恩達(dá)教授認(rèn)為，基于融合式學(xué)習(xí)、增強(qiáng)式學(xué)習(xí)、知識(shí)轉(zhuǎn)移等方法，小數(shù)據(jù)也可以發(fā)揮大的作用，未來(lái)AI的趨勢(shì)之一是將從大數(shù)據(jù)向小數(shù)據(jù)過(guò)渡。

小數(shù)據(jù)如何驅(qū)動(dòng)AI？

需要注意的是，小數(shù)據(jù)的“小”并不僅僅代表數(shù)據(jù)量小，也要求質(zhì)量高的數(shù)據(jù)，這一點(diǎn)尤為重要。小數(shù)據(jù)是指使用符合需求的數(shù)據(jù)類(lèi)型構(gòu)建模型，從而生成商業(yè)洞察和實(shí)現(xiàn)自動(dòng)化決策。

我們經(jīng)常會(huì)看到有人對(duì)AI期望過(guò)高，僅僅收集幾張圖片數(shù)據(jù)，就期望獲得一個(gè)高質(zhì)量的模型。在實(shí)際部署時(shí)，是要找出最適合用于模型構(gòu)建的那部分?jǐn)?shù)據(jù)，用于輸出正確內(nèi)容。

對(duì)此，吳恩達(dá)教授舉例道：一個(gè)經(jīng)過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)在大部分?jǐn)?shù)據(jù)集上的表現(xiàn)還不錯(cuò)，卻只在數(shù)據(jù)的一個(gè)子集上產(chǎn)生了偏差。這時(shí)候，如果要為了提高該子集的性能，而改變整個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)，這是相當(dāng)困難的。但是，如果能僅對(duì)數(shù)據(jù)的一個(gè)子集進(jìn)行設(shè)計(jì)，那么就可以更有針對(duì)性的解決這個(gè)問(wèn)題。

例如，當(dāng)背景中有汽車(chē)噪音時(shí)，有一個(gè)語(yǔ)音識(shí)別系統(tǒng)的表現(xiàn)會(huì)很差。了解了這一點(diǎn)，就可以在汽車(chē)噪音的背景下收集更多的數(shù)據(jù)，而不是所有的工作都要收集更多的數(shù)據(jù)，那樣處理起來(lái)會(huì)非常昂貴且費(fèi)時(shí)。

再比如，智能手機(jī)上有許多不同類(lèi)型的缺陷，可能會(huì)是劃痕、凹痕、坑痕、材料變色或者其它類(lèi)型的瑕疵。如果訓(xùn)練過(guò)的模型在檢測(cè)缺陷時(shí)總體表現(xiàn)很好，但在坑痕上表現(xiàn)得很差，那么合成數(shù)據(jù)的生成就可以更有針對(duì)性地解決這個(gè)問(wèn)題，只為坑痕類(lèi)別生成更多的數(shù)據(jù)。

事實(shí)上，小數(shù)據(jù)并不是一個(gè)全新的課題，在機(jī)器學(xué)習(xí)領(lǐng)域，小數(shù)據(jù)的處理方法已經(jīng)越來(lái)越多。

少樣本學(xué)習(xí)

通過(guò)少樣本學(xué)習(xí)技術(shù)，為機(jī)器學(xué)習(xí)模型提供少量訓(xùn)練數(shù)據(jù)，適合在模型處于完全監(jiān)督學(xué)習(xí)狀態(tài)而訓(xùn)練數(shù)據(jù)不足時(shí)使用。

少樣本學(xué)習(xí)技術(shù)經(jīng)常應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。在計(jì)算機(jī)視覺(jué)中，模型可能不需要很多示例來(lái)識(shí)別某一對(duì)象。例如，具有用于解鎖智能手機(jī)的面部識(shí)別算法，無(wú)需數(shù)千張本人的照片便可開(kāi)啟手機(jī)。

知識(shí)圖譜

知識(shí)圖譜屬于二級(jí)數(shù)據(jù)集，因?yàn)橹R(shí)圖譜是通過(guò)篩選原始的大數(shù)據(jù)而形成的。知識(shí)圖譜由一組具有定義含義并描述特定域的數(shù)據(jù)點(diǎn)或標(biāo)簽組成。

例如，一個(gè)知識(shí)圖譜可能由一系列著名女演員名字的數(shù)據(jù)點(diǎn)組成，共事過(guò)的女演員之間以線(xiàn)（或稱(chēng)之為邊）連接起來(lái)。知識(shí)圖譜是一種非常有用的工具，以一種高度可解釋和可重復(fù)使用的方式組織知識(shí)。

遷移學(xué)習(xí)

當(dāng)一個(gè)機(jī)器學(xué)習(xí)模型作為另一模型的訓(xùn)練起點(diǎn)，以幫助此模型完成相關(guān)任務(wù)時(shí)，就需要用到遷移學(xué)習(xí)技術(shù)。

從本質(zhì)上講，是將一個(gè)模型的知識(shí)遷移到另一個(gè)模型。以原始模型為起點(diǎn)，再使用額外數(shù)據(jù)來(lái)進(jìn)一步訓(xùn)練模型，從而培養(yǎng)模型處理新任務(wù)的能力。如果新任務(wù)不需要原始模型的某些構(gòu)成部分，也可以將其刪除。

在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等需要大量計(jì)算能力和數(shù)據(jù)的領(lǐng)域，遷移學(xué)習(xí)技術(shù)尤為有效。應(yīng)用遷移學(xué)習(xí)技術(shù)可以減少任務(wù)的工作量和所需時(shí)間。

自監(jiān)督學(xué)習(xí)

自監(jiān)督學(xué)習(xí)的原理是，讓模型從現(xiàn)有的數(shù)據(jù)中收集監(jiān)督信號(hào)。模型利用現(xiàn)有數(shù)據(jù)來(lái)預(yù)測(cè)未觀測(cè)到的或隱藏的數(shù)據(jù)。

例如，在自然語(yǔ)言處理中，數(shù)據(jù)科學(xué)家可能會(huì)在模型中輸入一個(gè)缺少單詞的句子，然后讓這個(gè)模型預(yù)測(cè)所缺少的單詞。從未隱藏的單詞中獲得足夠的背景線(xiàn)索后，模型便學(xué)會(huì)識(shí)別句中隱藏的單詞。

合成數(shù)據(jù)

當(dāng)給定數(shù)據(jù)集存在缺失，而現(xiàn)有數(shù)據(jù)無(wú)法填補(bǔ)時(shí)，就可以利用合成數(shù)據(jù)。

比較普遍的示例是面部識(shí)別模型。面部識(shí)別模型需要包含人類(lèi)全部膚色的面部圖像數(shù)據(jù)，但問(wèn)題是，深色人臉的照片比淺色人臉的照片數(shù)據(jù)要少。數(shù)據(jù)科學(xué)家可以人工創(chuàng)建深色人臉數(shù)據(jù)，以實(shí)現(xiàn)其代表的平等性，而不是創(chuàng)建一個(gè)難以識(shí)別深色人臉的模型。

但機(jī)器學(xué)習(xí)專(zhuān)家必須在現(xiàn)實(shí)世界中更徹底地測(cè)試這些模型，并在計(jì)算機(jī)生成的數(shù)據(jù)集不足時(shí)，添加額外的訓(xùn)練數(shù)據(jù)。

小數(shù)據(jù)的大潛力

如今，小數(shù)據(jù)的潛力正在被業(yè)界所重視。

2021年9月，美國(guó)網(wǎng)絡(luò)安全和新興技術(shù)局（簡(jiǎn)稱(chēng)CSET）發(fā)布的《小數(shù)據(jù)人工智能的巨大潛力》報(bào)告指出，長(zhǎng)期被忽略的小數(shù)據(jù)（Small Data）人工智能潛力不可估量！

一是，縮短大小實(shí)體間AI能力差距。

由于不同機(jī)構(gòu)收集、存儲(chǔ)和處理數(shù)據(jù)的能力差異較大，AI的“富人”（如大型科技公司）和“窮人”之間正在拉開(kāi)差距。使用小數(shù)據(jù)構(gòu)建AI系統(tǒng)，能夠大幅降低中小型企業(yè)進(jìn)入AI的壁壘，減少傳統(tǒng)企業(yè)項(xiàng)目的研發(fā)時(shí)間和成本，將成為數(shù)以萬(wàn)計(jì)的商業(yè)項(xiàng)目的重要突破口。

二是，促進(jìn)數(shù)據(jù)匱乏領(lǐng)域的發(fā)展。

對(duì)于許多亟待解決的問(wèn)題如：為沒(méi)有電子健康記錄的人構(gòu)建預(yù)測(cè)疾病風(fēng)險(xiǎn)的算法，或者預(yù)測(cè)活火山突然噴發(fā)的可能性，可用數(shù)據(jù)很少或者根本不存在。

小數(shù)據(jù)方法以提供原則性的方式來(lái)處理數(shù)據(jù)缺失或匱乏。它可以利用標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)，從相關(guān)問(wèn)題遷移知識(shí)。小數(shù)據(jù)也可以用少量數(shù)據(jù)點(diǎn)創(chuàng)建更多數(shù)據(jù)點(diǎn)，憑借關(guān)聯(lián)領(lǐng)域的先驗(yàn)知識(shí)，或通過(guò)構(gòu)建模擬或編碼結(jié)構(gòu)假設(shè)去開(kāi)始新領(lǐng)域的冒險(xiǎn)。

三是，避免臟數(shù)據(jù)問(wèn)題。

小數(shù)據(jù)方法能讓對(duì)“臟數(shù)據(jù)”煩不勝煩的大型機(jī)構(gòu)受益。不可計(jì)數(shù)的“臟數(shù)據(jù)”需要耗費(fèi)大量人力物力進(jìn)行數(shù)據(jù)清理、標(biāo)記和整理才能夠“凈化”，而小數(shù)據(jù)方法中數(shù)據(jù)標(biāo)記法可以通過(guò)自動(dòng)生成標(biāo)簽更輕松地處理大量未標(biāo)記的數(shù)據(jù)。遷移學(xué)習(xí)、貝葉斯方法或人工數(shù)據(jù)方法可以通過(guò)減少需要清理的數(shù)據(jù)量，分別依據(jù)相關(guān)數(shù)據(jù)集、結(jié)構(gòu)化模型和合成數(shù)據(jù)來(lái)顯著降低臟數(shù)據(jù)問(wèn)題的規(guī)模。

四是，減少個(gè)人數(shù)據(jù)的收集。

全球各國(guó)都陸續(xù)出臺(tái)了針對(duì)個(gè)人數(shù)據(jù)保護(hù)的政策法規(guī)，用小數(shù)據(jù)方法能夠很大程度上減少收集個(gè)人數(shù)據(jù)的行為，通過(guò)人工合成數(shù)據(jù)或使用模擬訓(xùn)練算法，讓使用機(jī)器學(xué)習(xí)變得更簡(jiǎn)單，從而讓人們對(duì)大規(guī)模收集、使用或披露消費(fèi)者數(shù)據(jù)不再擔(dān)憂(yōu)。

結(jié)語(yǔ)

AI依賴(lài)巨量數(shù)據(jù)、數(shù)據(jù)是必不可少的戰(zhàn)略資源，但也絕不能低估小數(shù)據(jù)的潛力，尤其是在AI走向應(yīng)用落地的下一個(gè)十年中，是時(shí)候從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)了。

THEEND

免責(zé)聲明：凡注明為其它來(lái)源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類(lèi)作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門(mén)

精選文章

熱點(diǎn)資訊

如何看待“人工智能”的發(fā)展？

未來(lái)十年，AI迎來(lái)“小數(shù)據(jù)”時(shí)代？

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

未來(lái)十年，AI迎來(lái)“小數(shù)據(jù)”時(shí)代？

最新評(píng)論（評(píng)論僅代表用戶(hù)觀點(diǎn)）

外部攻擊面管理（EASM）實(shí)踐——暗網(wǎng)威脅可視性報(bào)告

金融行業(yè)基于“變化”的運(yùn)行風(fēng)險(xiǎn)建立感知能力及應(yīng)對(duì)機(jī)制

地方發(fā)改委組建數(shù)據(jù)局的建議

大數(shù)據(jù)時(shí)代的智慧城市安全建設(shè)研究

本月熱門(mén)

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國(guó)際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車(chē)涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬(wàn)億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

倒計(jì)時(shí)!微軟將在一年后停止對(duì)Windows 7的支持

助力奔馳華南最大經(jīng)銷(xiāo)商仁孚汽車(chē)，打造“一站式IT服務(wù)平臺(tái)”

沐曦聯(lián)手合作伙伴打造曦思應(yīng)用生態(tài)聯(lián)盟

構(gòu)筑數(shù)智化轉(zhuǎn)型新基座，中國(guó)知網(wǎng)基于“大模型+AIGC”的大數(shù)據(jù)知識(shí)管理系列產(chǎn)品重磅發(fā)布!

喜報(bào) | 懸鏡安全中標(biāo)大型能源國(guó)企標(biāo)桿數(shù)字供應(yīng)鏈安全管理建設(shè)項(xiàng)目原創(chuàng) Xmirror 懸鏡安全

康偉：智能化防御構(gòu)建安全行業(yè)發(fā)展的新業(yè)態(tài)

熱點(diǎn)資訊

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來(lái)|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線(xiàn)索：企業(yè)騰飛的雙重動(dòng)力引擎!

如何看待“人工智能”的發(fā)展？

5G商用，6G上場(chǎng)

未來(lái)十年，AI迎來(lái)“小數(shù)據(jù)”時(shí)代？

最新評(píng)論（評(píng)論僅代表用戶(hù)觀點(diǎn)）

欄目推薦

外部攻擊面管理（EASM）實(shí)踐——暗網(wǎng)威脅可視性報(bào)告

金融行業(yè)基于“變化”的運(yùn)行風(fēng)險(xiǎn)建立感知能力及應(yīng)對(duì)機(jī)制

地方發(fā)改委組建數(shù)據(jù)局的建議

大數(shù)據(jù)時(shí)代的智慧城市安全建設(shè)研究

本月熱門(mén)

精選文章

熱點(diǎn)資訊

如何看待“人工智能”的發(fā)展？

5G商用，6G上場(chǎng)

未來(lái)十年，AI迎來(lái)“小數(shù)據(jù)”時(shí)代？

如何看待“人工智能”的發(fā)展？

5G商用，6G上場(chǎng)