“祛魅”深度學習,智能的貪婪和智能的脆弱

陳根
深度學習就像生物神經(jīng)大腦的工作機理一樣,通過合適的矩陣數(shù)量,多層組織鏈接一起,形成神經(jīng)網(wǎng)絡(luò)“大腦”進行精準復雜的處理。深度學習的出現(xiàn),讓圖像、語音等感知類問題取得了真正意義上的突破??梢哉f,深度學習被引入機器學習,使其更接近于最初的目標——人工智能。

深度學習作為現(xiàn)今炙手可熱的概念而得到學術(shù)界和工業(yè)界的廣泛認可,但伴隨這些進展而來的還有越來越多對深度學習的質(zhì)疑。

機器學習是人工智能的一個重要分支,而深度學習則是機器學習發(fā)展到一定階段的必然產(chǎn)物。

深度學習就像生物神經(jīng)大腦的工作機理一樣,通過合適的矩陣數(shù)量,多層組織鏈接一起,形成神經(jīng)網(wǎng)絡(luò)“大腦”進行精準復雜的處理。深度學習的出現(xiàn),讓圖像、語音等感知類問題取得了真正意義上的突破??梢哉f,深度學習被引入機器學習,使其更接近于最初的目標——人工智能。

當前,以深度學習為代表的人工智能技術(shù)取得了飛速的發(fā)展,正落地應用于各行各業(yè)。但深度學習不是萬能的,深度學習的局限性導致其在近幾年的發(fā)展中進入了瓶頸。

紐約大學教授Gary Marcus曾經(jīng)說,深度學習是貪婪、脆弱、不透明和淺薄的,而如何面對深度學習的貪婪、脆弱、不透明和淺薄,將決定深度學習在未來能否行穩(wěn)致遠。

2345截圖20170601094617.png

深度學習走向爆發(fā)

20世紀50年代到70年代初,人工智能研究處于“推理期”。彼時,人們認為,只要能賦予機器邏輯推理能力,機器就能具有智能。但隨著研究向前發(fā)展,研究人員們意識到,要使機器具有智能,就必須使機器擁有知識。在這一階段,機器學習開始萌芽。

1952年,亞瑟·塞繆爾開發(fā)的跳棋程序,創(chuàng)造了“機器學習”這一概念,并將它定義為:“可以提供計算機能力而無需顯式編程的研究領(lǐng)域”。機器學習旨在通過給機器一些原始的“學習資料”,讓機器自動地學習如何判斷和輸出相應的結(jié)果。

機器學習的發(fā)展誕生了人工神經(jīng)網(wǎng)絡(luò),而深度學習正源于對人工神經(jīng)網(wǎng)絡(luò)的研究。當前的深度學習系統(tǒng)就主要由神經(jīng)網(wǎng)絡(luò)的架構(gòu)、算法以及結(jié)構(gòu)化數(shù)據(jù)三大要素構(gòu)成。其中,神經(jīng)網(wǎng)絡(luò)的架構(gòu)是深度學習最基礎(chǔ)也最必要的一環(huán)。網(wǎng)絡(luò)架構(gòu)的選擇讓深度學習以一種令給定算法可學習的方式來表示數(shù)據(jù)中的結(jié)構(gòu)。

神經(jīng)網(wǎng)絡(luò)的架構(gòu)主要包括前饋神經(jīng)網(wǎng)絡(luò),循環(huán)網(wǎng)絡(luò)和對稱連接網(wǎng)絡(luò)。前饋神經(jīng)網(wǎng)絡(luò)是實際應用中最常見的神經(jīng)網(wǎng)絡(luò)類型。第一層是輸入,最后一層是輸出,如果有多個隱藏層,即為“深度”神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)是一類以序列數(shù)據(jù)為輸入,在序列的演進方向進行遞歸且所有節(jié)點(循環(huán)單元)按鏈式連接的遞歸神經(jīng)網(wǎng)絡(luò)。

對稱連接網(wǎng)絡(luò)與循環(huán)網(wǎng)絡(luò)相似,只是單元之間的連接是對稱的(在兩個方向上的權(quán)重相同)。對稱的權(quán)重限制了網(wǎng)絡(luò)模型變化的可能性,從而也限制了網(wǎng)絡(luò)的能力,但同時也使得其比循環(huán)神經(jīng)網(wǎng)絡(luò)更容易分析。

基于人工神經(jīng)網(wǎng)絡(luò)的深度學習也展現(xiàn)出過去人工智能不可比擬的優(yōu)勢。2013年初,在《麻省理工科技評論》發(fā)布的“十大突破性技術(shù)”中,“深度學習”就作為上榜技術(shù)赫然在列,評論也給出了3-5年內(nèi)即將爆發(fā)的明確時間周期。

比如,在計算機視覺領(lǐng)域,深度學習的優(yōu)勢在于它能夠直接從大型圖像數(shù)據(jù)集中自動學習復雜且有用的特征,并且從神經(jīng)網(wǎng)絡(luò)模型的提供的圖像中學習并自動提取各種層次的特征。

深度神經(jīng)網(wǎng)絡(luò)性能的顯著提高也是深度學習領(lǐng)域迅速發(fā)展的催化劑。2012年,卷積神經(jīng)網(wǎng)絡(luò)AlexNet就以15.8%的top-5錯誤率獲得了ILSVRC的冠軍,而當年的第二名卻以26.2%的錯誤率遠落后于AlexNet。

根據(jù)ARK的研究,未來15-20年,深度學習將為全球股票市場增加30萬億美元的市值。此外,在很多方面,深度學習正在創(chuàng)造全新的下一代計算平臺。2020年,擁有AI技術(shù)的智能音箱在世界范圍內(nèi)回應了1000億條語音指令,比2019年增長了75%。

在自動駕駛方面,美國Waymo公司的自動駕駛汽車已經(jīng)在包括舊金山、底特律和鳳凰城在內(nèi)的25個城市收集了超過2000萬英里的真實駕駛里程。使用深度學習技術(shù)進行視頻推薦的中國公司TikTok,也已經(jīng)超越了Snapchat加Pinterest。

可以說,作為人工智能的一種形式,深度學習技術(shù)通過利用數(shù)據(jù)自動編寫程序,正在為各行各業(yè)帶來革命性的改變。

2345截圖20170601094617.png

貪婪、脆弱、不透明和淺薄的深度學習

深度學習作為現(xiàn)今炙手可熱的概念,其更好的性能得到了學術(shù)界和工業(yè)界的廣泛認可,但伴隨這些進展而來的還有越來越多對深度學習的質(zhì)疑。深度學習暴露的越來越多的弱點正在引起公眾對人工智能的關(guān)注,比如在無人駕駛汽車領(lǐng)域,它們使用類似的深度學習技術(shù)進行導航,就曾經(jīng)導致了廣為人知的傷亡事故。

Gary Marcus曾經(jīng)指出,深度學習是貪婪、脆弱、不透明和淺薄的。

這些系統(tǒng)很貪婪,因為它們需要大量的訓練數(shù)據(jù)。對于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類來說,卷積神經(jīng)網(wǎng)絡(luò)對物體的姿勢并不敏感。如果要識別同一個物體,在位置、大小、方向、變形、速度、反射率、色調(diào)、紋理等方面存在差異,都必須針對這些情況分別添加訓練數(shù)據(jù)。

可以說,盡管深度神經(jīng)網(wǎng)絡(luò)在許多任務(wù)中表現(xiàn)良好,但這些網(wǎng)絡(luò)通常需要大量數(shù)據(jù)才能避免過度擬合。遺憾的是,許多場景無法獲得大量數(shù)據(jù),例如醫(yī)學圖像分析。

深度學習是脆弱的。當下,深度學習網(wǎng)絡(luò)在做分類的時候,很難輸出一個百分百肯定的結(jié)果,這也就意味著網(wǎng)絡(luò)并沒有完全理解這些圖片,只能通過各種特征的組合來完成大概的預測。

一根香蕉,人工智能卻能將其識別為烤面包機。即使它使用了在自動駕駛、語音理解和多種AI應用中表現(xiàn)出色的強大深度學習技術(shù)。也就是說,即便人工智能已經(jīng)見過了幾千張香蕉、蛞蝓、蝸牛和類似外觀的圖片,能夠?qū)π螺斎氲膱D像預測其中物體的類別,但依然容易被誤導。圖像中只需要多一張貼紙,就能讓系統(tǒng)的預測產(chǎn)生嚴重偏離。

而顯然,不管人們用來訓練的圖片庫有多大都是有限的,從而有些圖片是沒有在我們的訓練庫內(nèi)的(對抗樣本),這些圖片很可能跟已有的圖片具有極其類似的特征,從而出現(xiàn)將對抗樣本完全分錯類的情況。

深度學習是不透明的。與傳統(tǒng)機器學習不同,深度學習并不遵循數(shù)據(jù)輸入、特征提取、特征選擇、邏輯推理、預測的過程,而是由計算機直接從事物原始特征出發(fā),自動學習和生成高級的認知結(jié)果。雖然深度學習來自于人類的大腦的工作機制,但依然無法真正理解不同模型的各個參數(shù)的含義,從而導致整個深度學習網(wǎng)絡(luò)成為了一個黑盒模型,除了一些超參以外,很難進行內(nèi)部的調(diào)參。

2345截圖20170601094617.png

而這個黑盒模型,不只意味著不能觀察,還意味著即使計算機試圖向我們解釋,人們也無法理解——被描述為黑匣子的深層神經(jīng)網(wǎng)絡(luò)何時能夠提供令人滿意的答案,何時不能?應用深度學習系統(tǒng)時,將相應領(lǐng)域知識、約束條件和對稱性考慮進來的最佳方式是什么?如何確定和量化訓練和測試數(shù)據(jù)是否來自不同來源等都是深度學習需要回答卻至今未答的謎題。

深度學習還是淺薄的。當下的深度學習網(wǎng)絡(luò)大部分傾向于表征學習,而非真正的智能,很依賴于其訓練數(shù)據(jù),很難從有限的數(shù)據(jù)中學習到全局的東西。同時,在一些不斷變化的情景下,這些網(wǎng)絡(luò)也很難有很好的表現(xiàn)。

去年,OpenAI的GPT-3在外網(wǎng)走紅。GPT-3作為著名人工智能科研公司OpenAI開發(fā)的文字生成人工智能,以天文數(shù)字級別的1,750億參數(shù)量引發(fā)轟動。GPT-3是迄今為止最強大的語言模型,龐大的參數(shù)量也讓GPT-3幾乎無所不能,包括答題、翻譯、寫文章,甚至是數(shù)學計算和編寫代碼。

但GPT-3類似人類的輸出和驚人的通用性只是優(yōu)秀技術(shù)的結(jié)果,而不是真正的聰明。GPT-3的智能是天文數(shù)字級別的參數(shù)量和運算的疊加。

可以看見,雖然深度學習在各科學學科的研究中已經(jīng)取得了巨大的成功,但深度學習在持守優(yōu)勢的同時,也有一定的局限性,包括數(shù)據(jù)的局限和智能的局限。

與此相對應的,就是為了突破局限而生的數(shù)據(jù)合成、遷移學習、3D對象理解等新生學科。任何領(lǐng)域的根本性進展和爆發(fā)必然要經(jīng)歷時間的考驗,這些挑戰(zhàn)是真實存在的,也正在被解釋。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論