從認(rèn)知和系統(tǒng)任務(wù)的角度來看待人工智能的發(fā)展問題

我是天邊飄過一朵云
近年來,人工智能戰(zhàn)勝了圍棋世界冠軍以及頂級(jí)撲克玩家,并且在機(jī)器翻譯、目標(biāo)分類、語(yǔ)音識(shí)別等領(lǐng)域取得了卓越的進(jìn)步。然而,大多數(shù)的人工智能系統(tǒng)關(guān)注點(diǎn)都相當(dāng)局限。

近年來,人工智能戰(zhàn)勝了圍棋世界冠軍以及頂級(jí)撲克玩家,并且在機(jī)器翻譯、目標(biāo)分類、語(yǔ)音識(shí)別等領(lǐng)域取得了卓越的進(jìn)步。然而,大多數(shù)的人工智能系統(tǒng)關(guān)注點(diǎn)都相當(dāng)局限。圍棋冠軍“棋手”AlphaGo并不知道圍棋是通過將棋子放在棋盤上來下的,也不知道棋子和棋盤是什么。當(dāng)你給它一個(gè)長(zhǎng)方形棋盤來代替正方形格子棋盤時(shí),它需要從頭開始接受訓(xùn)練。要讓人工智能理解開放語(yǔ)境或運(yùn)轉(zhuǎn)家用多功能機(jī)器人,我們還有很長(zhǎng)的路要走。在理解能力和靈活思考方面,人類大腦依舊遠(yuǎn)遠(yuǎn)勝過機(jī)器,因此觀察人類大腦就是一個(gè)好的著眼點(diǎn)。

通常,人們會(huì)提出簡(jiǎn)單的理論:從行為主義到貝葉斯推理再到深度學(xué)習(xí),據(jù)說這些理論可以解釋一切人工智能。但是,引用費(fèi)爾斯通(Firestone)和肖勒(Scholl)的話說,“大腦沒有單一的運(yùn)轉(zhuǎn)模式,因?yàn)榇竽X不是由一個(gè)東西組成的。相反,大腦可以分為不同的部分,并且每個(gè)部分的運(yùn)轉(zhuǎn)方式都不同。大腦辨別顏色區(qū)別于計(jì)劃假期,并且與理解句子、移動(dòng)四肢、記憶事實(shí)和感受情感都不同。”人腦極其復(fù)雜且多樣,它擁有150多個(gè)可清晰識(shí)別的大腦區(qū)域,大約860億個(gè)神經(jīng)元,沒有上千種也有幾百種不同的類型,萬億個(gè)突觸,每個(gè)突觸中都有數(shù)百種不同的蛋白質(zhì)。真正智能且靈活的系統(tǒng)就像大腦一樣充滿了復(fù)雜性。任何一種旨在將智能減少到單一原則或者單一“主算法”的理論都必定是失敗的。

1_看圖王.jpeg

傳統(tǒng)的人工智能通常側(cè)重于深層含義表示(internal representations),例如:為了呈現(xiàn)肯尼迪(Kennedy)總統(tǒng)1963年訪問柏林的著名事件,人們會(huì)添加一系列事實(shí),比如“地區(qū)(柏林,德國(guó))”,“訪問(肯尼迪,柏林,1963年6月)”。知識(shí)是由這些表達(dá)積累而成的,而推論則建立在這一基礎(chǔ)之上。在此基礎(chǔ)之上可以輕松推斷肯尼迪訪問了德國(guó)。

目前,深度學(xué)習(xí)嘗試用一堆矢量來粗略地解釋這一點(diǎn),這些矢量以一種粗糙的方式捕獲了一些正在發(fā)生的事情,卻根本無法直接表示其意義。沒有一種特定的方式來代表發(fā)生過“訪問(肯尼迪,柏林,1963)”,或者“地區(qū)(柏林,德國(guó))”,所有的事情都只是粗略的相似。深度學(xué)習(xí)目前在推理以及論證上遇到了困難,因?yàn)樗皇怯糜诒磉_(dá)精確的現(xiàn)實(shí)知識(shí),一旦事實(shí)模糊,就很難得到正確的推理。被大肆炒作的GPT-3就是一個(gè)很好的例子。相關(guān)的系統(tǒng)BERT也不能可靠地回答諸如“如果將兩個(gè)獎(jiǎng)杯放在一張桌子上然后再增加一個(gè),現(xiàn)在有多少個(gè)?”這樣的問題。

人類認(rèn)知是一種復(fù)雜的智慧,其中數(shù)十種或數(shù)百種不同的“行為主體”各自專門處理不同類別的任務(wù)。例如:喝一杯茶需要抓握主體、平衡主體、口渴機(jī)體和一些移動(dòng)機(jī)體相互作用來完成。進(jìn)化發(fā)展心理學(xué)中的許多內(nèi)容都指向了同一個(gè)方向:心智不是單一的事情,而是很多。

具有諷刺意味的是,這幾乎和當(dāng)前機(jī)器學(xué)習(xí)的趨勢(shì)相反,機(jī)器學(xué)習(xí)傾向于端對(duì)端模型,使用單一的同類型機(jī)制,幾乎沒有內(nèi)部結(jié)構(gòu)。Nvidia 2016年的駕駛模型就是一個(gè)例子,該模型放棄了感知、預(yù)測(cè)和決策等經(jīng)典模塊。取而代之的是,它采用了一種單一的、相對(duì)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)輸入(像素)與一組輸出(轉(zhuǎn)向和加速指令)之間的直接相關(guān)性。這類事情的擁護(hù)者指出了“聯(lián)合”構(gòu)造整個(gè)系統(tǒng)而不是對(duì)每個(gè)模塊單獨(dú)訓(xùn)練的優(yōu)勢(shì)。如果我們可以用非常簡(jiǎn)便的方式構(gòu)建一個(gè)大型網(wǎng)絡(luò),為什么要花很多時(shí)間去構(gòu)造單獨(dú)的模塊呢?問題是這樣的系統(tǒng)很難調(diào)試,并且很難具有我們所需的靈活性。Nvidia的系統(tǒng)在人類駕駛員的干預(yù)下通常只能正常工作幾個(gè)小時(shí),而不是幾千個(gè)小時(shí)。人類駕駛可以從A點(diǎn)導(dǎo)航到B點(diǎn)并處理車道變更,而Nvidia所能做的就是在一條車道上走直線。

當(dāng)頂尖的人工智能開發(fā)者想要解決復(fù)雜的問題時(shí),他們經(jīng)常使用一些混合系統(tǒng)。要在圍棋比賽中取得勝利,需要將深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、游戲樹搜索和蒙特卡洛搜索相結(jié)合。例如Siri之類的問答機(jī)器人以及網(wǎng)絡(luò)搜索引擎使用“廚房水槽”方法,都集成了許多不同類型的處理。因此,要真正實(shí)現(xiàn)人類智慧需要將更多的任務(wù)要求,以及更為系統(tǒng)化的機(jī)器學(xué)習(xí)來實(shí)現(xiàn)才行。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論