強(qiáng)化學(xué)習(xí)到底是什么,它如何運(yùn)作?

我愛(ài)至尊寶
強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)中的一個(gè)子集,它使代理能夠理解在特定環(huán)境中執(zhí)行特定操作的相應(yīng)結(jié)果。目前,相當(dāng)一部分機(jī)器人就在使用強(qiáng)化學(xué)習(xí)掌握種種新能力。強(qiáng)化學(xué)習(xí)是一種行為學(xué)習(xí)模型,由算法提供數(shù)據(jù)分析反饋,引導(dǎo)用戶(hù)逐步獲取最佳結(jié)果。

強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)中的一個(gè)子集,它使代理能夠理解在特定環(huán)境中執(zhí)行特定操作的相應(yīng)結(jié)果。目前,相當(dāng)一部分機(jī)器人就在使用強(qiáng)化學(xué)習(xí)掌握種種新能力。

強(qiáng)化學(xué)習(xí)是一種行為學(xué)習(xí)模型,由算法提供數(shù)據(jù)分析反饋,引導(dǎo)用戶(hù)逐步獲取最佳結(jié)果。

不同于使用樣本數(shù)據(jù)集訓(xùn)練機(jī)器模型的各類(lèi)監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)嘗試通過(guò)反復(fù)試驗(yàn)掌握個(gè)中訣竅。通過(guò)一系列正確的決策,模型本身將得到逐步強(qiáng)化,慢慢掌控解決問(wèn)題的更佳方法。

強(qiáng)化學(xué)習(xí)與人類(lèi)在嬰幼兒時(shí)期的學(xué)習(xí)過(guò)程非常相似。我們每個(gè)人的成長(zhǎng)都離不開(kāi)這種學(xué)習(xí)強(qiáng)化——正是在一次又一次跌倒與父母的幫扶之下,我們才最終站立起來(lái)。

這是一種基于經(jīng)驗(yàn)的學(xué)習(xí)流程,機(jī)器會(huì)不斷嘗試、不斷犯錯(cuò),最終找到正確的解決思路。

我們只需要為機(jī)器模型提供最基本的“游戲規(guī)則”,余下的就完全交給模型自主探索。模型將從隨機(jī)嘗試開(kāi)始,一步步建立起自己的復(fù)雜戰(zhàn)術(shù),通過(guò)無(wú)數(shù)次嘗試達(dá)成任務(wù)、獲得獎(jiǎng)勵(lì)。

事實(shí)證明,強(qiáng)化學(xué)習(xí)已經(jīng)成為培養(yǎng)機(jī)器人想象力的重要方法之一。不同于普通人類(lèi),人工智能將從成千上萬(wàn)輪游戲中積累知識(shí),而強(qiáng)大的計(jì)算機(jī)基礎(chǔ)設(shè)施則為這類(lèi)模型提供可靠的算力支持。

YouTube上的視頻就是強(qiáng)化學(xué)習(xí)的應(yīng)用實(shí)例。在觀(guān)看當(dāng)前視頻之后,該平臺(tái)會(huì)向你展示它認(rèn)為你可能感興趣的類(lèi)似內(nèi)容。如果你點(diǎn)開(kāi)了推薦視頻但卻沒(méi)有看完,機(jī)器會(huì)認(rèn)為此次推薦失敗,并在下一次嘗試其他推薦方法。

強(qiáng)化學(xué)習(xí)的挑戰(zhàn)

強(qiáng)化學(xué)習(xí)面對(duì)的核心挑戰(zhàn),在于如何規(guī)模模擬環(huán)境。模擬環(huán)境在很大程度上由有待執(zhí)行的任務(wù)所決定。我們以國(guó)際象棋、圍棋或者雅達(dá)利游戲?yàn)槔@類(lèi)模擬環(huán)境相對(duì)簡(jiǎn)單也易于構(gòu)建。但是,要想用同樣的方法訓(xùn)練出安全可靠的自動(dòng)駕駛汽車(chē),就必須創(chuàng)建出非常逼真的街道原型環(huán)境,引入突然闖出的行人或者可能導(dǎo)致碰撞事故的各類(lèi)因素。如果仿真度不夠,那么模型在從訓(xùn)練環(huán)境轉(zhuǎn)移到現(xiàn)實(shí)場(chǎng)景之后,就會(huì)出現(xiàn)一系列問(wèn)題。

另一個(gè)難題,在于如何擴(kuò)展及修改代理的神經(jīng)網(wǎng)絡(luò)。除了獎(jiǎng)勵(lì)與處罰之外,我們?cè)贌o(wú)其他方法與該網(wǎng)絡(luò)建立聯(lián)系。這有可能引發(fā)嚴(yán)重的“健忘”癥狀,即網(wǎng)絡(luò)在獲取新信息后,會(huì)將一部分可能非常重要的舊知識(shí)清除出去。換句話(huà)說(shuō),我們需要想辦法管理學(xué)習(xí)模型的“記憶”。

最后,我們還得防止機(jī)器代理“作弊”。有時(shí)候,機(jī)器模型能夠獲得良好的結(jié)果,但實(shí)現(xiàn)方式卻與我們的預(yù)期相去甚遠(yuǎn)。一部分代理甚至?xí)诓煌瓿蓪?shí)際任務(wù)的情況下,通過(guò)“渾水摸魚(yú)”拿到最大獎(jiǎng)勵(lì)。

強(qiáng)化學(xué)習(xí)的應(yīng)用領(lǐng)域

游戲

機(jī)器學(xué)習(xí)之所以具有極高的知名度,主要源自它在解決各類(lèi)游戲問(wèn)題時(shí)展現(xiàn)出的驚人實(shí)力。

最著名的自然是AlphaGo與AlphaGo Zero。AlphaGo通過(guò)無(wú)數(shù)人類(lèi)棋手的棋譜進(jìn)行大量訓(xùn)練,憑借策略網(wǎng)絡(luò)中的蒙特卡洛樹(shù)價(jià)值研究與價(jià)值網(wǎng)絡(luò)(MCTS)獲得了超人的棋力。但研究人員隨后又嘗試了另一種更加純粹的強(qiáng)化學(xué)習(xí)方法——從零開(kāi)始訓(xùn)練機(jī)器模型。最終,新的代理AlphaGo Zero出現(xiàn),其學(xué)習(xí)過(guò)程完全源自自主摸索、不添加任何人為數(shù)據(jù),最終以100-0的碾壓性?xún)?yōu)勢(shì)戰(zhàn)勝了前輩AlphaGo。

個(gè)性化推薦

新聞內(nèi)容推薦是一項(xiàng)歷史性難題,快速變化的新聞動(dòng)態(tài)、隨時(shí)可能轉(zhuǎn)變的用戶(hù)喜好再加上與用戶(hù)留存率若即若離的點(diǎn)擊率都讓研究人員頭痛不已。Guanjie等研究者發(fā)布的《DRN:用于新聞推薦的深度強(qiáng)化學(xué)習(xí)框架》一文,希望探討如何將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于新聞推薦系統(tǒng)以攻克這一重大挑戰(zhàn)。

為此,他們構(gòu)建起四種資源類(lèi)別,分別為:1)用戶(hù)資源;2)上下文資源(例如環(huán)境狀態(tài)資源);3)用戶(hù)新聞資源;4)新聞資源(例如行動(dòng)資源)。他們將這四種資源插入深度Q網(wǎng)絡(luò)(DQN)以計(jì)算Q值。隨后,他們以Q值為基礎(chǔ)選擇一份新聞列表進(jìn)行推薦,并將用戶(hù)對(duì)推薦內(nèi)容的點(diǎn)擊情況作為強(qiáng)化學(xué)習(xí)代理的重要獎(jiǎng)勵(lì)指標(biāo)。

作者們還采用其他技術(shù)以解決相關(guān)難題,包括記憶重復(fù)、生存模型、Dueling Bandit Gradient Descent等方法。

計(jì)算機(jī)集群中的資源管理

如何設(shè)計(jì)算法以將有限的資源分配給不同任務(wù)同樣是一項(xiàng)充滿(mǎn)挑戰(zhàn)的課題,而且往往需要人為啟發(fā)的引導(dǎo)。

題為《使用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)資源管理》的論文介紹了如何使用強(qiáng)化學(xué)習(xí)讓模型自動(dòng)探索如何為保留的作業(yè)分配及調(diào)度計(jì)算機(jī)資源,借此最大程度降低平均作業(yè)(任務(wù))的處理時(shí)長(zhǎng)。

這種方法用“狀態(tài)空間”來(lái)表現(xiàn)當(dāng)前資源分配與作業(yè)的資源配置方式。而在行動(dòng)空間方面,他們使用一種技巧,允許代理在各個(gè)時(shí)間階段選擇多項(xiàng)行動(dòng)。獎(jiǎng)勵(lì)則是系統(tǒng)中所有作業(yè)的總和(-1/作業(yè)持續(xù)時(shí)間)。接下來(lái),他們將強(qiáng)化學(xué)習(xí)算法與基準(zhǔn)值相結(jié)合,借此計(jì)算策略梯度,找出最佳策略參數(shù),憑借這些參數(shù)計(jì)算出能夠?qū)崿F(xiàn)目標(biāo)最小化的行動(dòng)概率分布。

交通燈控制

在題為《基于強(qiáng)化學(xué)習(xí)的多代理交通信號(hào)網(wǎng)絡(luò)控制系統(tǒng)》一文中,研究人員嘗試設(shè)計(jì)一種交通信號(hào)燈控制方案,借此解決交通擁堵問(wèn)題。他們的方法僅在模擬環(huán)境下進(jìn)行了測(cè)試,并表現(xiàn)出優(yōu)于傳統(tǒng)方法的性能水平,這也體現(xiàn)出在交通系統(tǒng)設(shè)計(jì)中引入多代理強(qiáng)化學(xué)習(xí)技術(shù)的潛在可行性。

他們?cè)谖鍌€(gè)路口的交通網(wǎng)絡(luò)中部署了五個(gè)代理,并在中央路口處部署強(qiáng)化學(xué)習(xí)代理以控制交通信號(hào)。他們將交通狀態(tài)定義為8維向量,每個(gè)元素代表各條車(chē)道的相對(duì)交通流量。每個(gè)代理可以從8種選項(xiàng)中任選其一,各選項(xiàng)代表每個(gè)階段的組合,獎(jiǎng)勵(lì)條件則是新的組合必須在交通流量延遲方面優(yōu)于前一組合。作者們使用SQN計(jì)算對(duì)的Q值。

機(jī)器人

強(qiáng)化學(xué)習(xí)在機(jī)器人技術(shù)領(lǐng)域的應(yīng)用同樣大放異彩。感興趣的朋友請(qǐng)關(guān)注強(qiáng)化學(xué)習(xí)在機(jī)器人領(lǐng)域的研究成果。在這方面,研究人員們通過(guò)訓(xùn)練引導(dǎo)機(jī)器人學(xué)習(xí)策略,嘗試將原始視頻圖像與機(jī)器人的行動(dòng)映射起來(lái)。將RGB圖像輸入CNN進(jìn)行計(jì)算,最終輸出的則是各臺(tái)驅(qū)動(dòng)引擎的扭矩。強(qiáng)化學(xué)習(xí)組件負(fù)責(zé)根據(jù)訓(xùn)練數(shù)據(jù)中的狀態(tài)分布總結(jié)出準(zhǔn)確的轉(zhuǎn)換策略。

網(wǎng)絡(luò)系統(tǒng)配置

網(wǎng)絡(luò)系統(tǒng)當(dāng)中往往包含超過(guò)100項(xiàng)可配置參數(shù),而參數(shù)調(diào)整過(guò)程則需要合格的操作人員持續(xù)進(jìn)行跟蹤與錯(cuò)誤測(cè)試。

題為《強(qiáng)化在線(xiàn)網(wǎng)絡(luò)系統(tǒng)自我配置能力的學(xué)習(xí)方法》的論文,介紹了研究人員如何在基于動(dòng)態(tài)虛擬機(jī)的環(huán)境中自動(dòng)重新配置多層網(wǎng)絡(luò)系統(tǒng)內(nèi)各項(xiàng)參數(shù)的首次嘗試。

研究人員可以將重新配置的流程公式化為有限MDP(馬爾科夫決策流程)的形式。其中的狀態(tài)空間為系統(tǒng)配置,各參數(shù)的行動(dòng)空間則包括。獎(jiǎng)勵(lì)被定義為預(yù)期響應(yīng)時(shí)間與實(shí)測(cè)響應(yīng)時(shí)間之差。作者使用Q學(xué)習(xí)算法執(zhí)行這項(xiàng)任務(wù)。

當(dāng)然,作者也使用了其他一些技術(shù)(例如策略初始化)以解決較大狀態(tài)空間與復(fù)雜問(wèn)題場(chǎng)景下的計(jì)算難度問(wèn)題,因此并不能算單純依靠強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)組合實(shí)現(xiàn)。但可以相信,這項(xiàng)開(kāi)拓性工作為未來(lái)的探索鋪平了道路。

化學(xué)

強(qiáng)化學(xué)習(xí)在優(yōu)化化學(xué)反應(yīng)方面同樣表現(xiàn)出色。研究人員們發(fā)現(xiàn),他們的模型已經(jīng)摸索出極為先進(jìn)的算法,《通過(guò)深度強(qiáng)化學(xué)習(xí)優(yōu)化化學(xué)反應(yīng)》一文還探討了如何將這種算法推廣到多種不同的潛在場(chǎng)景當(dāng)中。

配合LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))對(duì)策略特征進(jìn)行建模,強(qiáng)化學(xué)習(xí)代理通過(guò)以為特征的馬爾科夫決策流程(MDP)優(yōu)化了化學(xué)反應(yīng)。其中的S代表一組實(shí)驗(yàn)條件(例如溫度、pH等),A為可以調(diào)整的一切可能行動(dòng)的集合,P為從當(dāng)前實(shí)驗(yàn)條件轉(zhuǎn)換至下一條件的概率,R則為狀態(tài)獎(jiǎng)勵(lì)函數(shù)。

這套應(yīng)用方案很好地演示了強(qiáng)化學(xué)習(xí)技術(shù)如何在相對(duì)穩(wěn)定的環(huán)境下減少試錯(cuò)次數(shù)并縮短學(xué)習(xí)周期。

拍賣(mài)與廣告

阿里巴巴公司的研究人員發(fā)表了《在廣告展示中采用多代理強(qiáng)化學(xué)習(xí)進(jìn)行實(shí)時(shí)競(jìng)拍》一文,表示其基于集群的分布式多代理解決方案(DCMAB)取得了可喜的成果,并計(jì)劃在下一步研究中投放淘寶平臺(tái)進(jìn)行實(shí)際測(cè)試。

總體而言,淘寶廣告平臺(tái)負(fù)責(zé)為經(jīng)銷(xiāo)商提供可供競(jìng)拍的廣告展示區(qū)域。目前大多數(shù)代理無(wú)法快速解決這個(gè)問(wèn)題,因?yàn)榻灰渍咄ハ喔?jìng)標(biāo),而且出價(jià)往往與其業(yè)務(wù)及決策密切相關(guān)。在這篇論文中,研究人員將商戶(hù)與客戶(hù)劃分為不同的組以降低計(jì)算復(fù)雜性。各代理的狀態(tài)空間表示代理本身的成本-收入狀態(tài),行動(dòng)空間為(連續(xù))競(jìng)標(biāo),獎(jiǎng)勵(lì)則為客戶(hù)集群收入。

深度學(xué)習(xí)

近期,越來(lái)越多研究人員開(kāi)始嘗試將強(qiáng)化學(xué)習(xí)與其他深度學(xué)習(xí)架構(gòu)相結(jié)合,并帶來(lái)了令人印象深刻的成果。

其中最具影響力的成果之一,正是DeepMind將CNN與強(qiáng)化學(xué)習(xí)相結(jié)合做出的嘗試。以此為基礎(chǔ),代理可以通過(guò)高維傳感器“觀(guān)察”環(huán)境,而后學(xué)習(xí)如何與之交互。

CNN配合強(qiáng)化學(xué)習(xí)已經(jīng)成為人們探索新思路的有力組合。RNN是一種具有“記憶”的神經(jīng)網(wǎng)絡(luò)。與強(qiáng)化學(xué)習(xí)結(jié)合使用,RNN將為代理提供記憶能力。例如,研究人員將LSTM與強(qiáng)化學(xué)習(xí)進(jìn)行組合,創(chuàng)建出一套深循環(huán)Q網(wǎng)絡(luò)(DRQN)并學(xué)習(xí)如何游玩雅達(dá)利游戲。他們還使用LSTM加強(qiáng)化學(xué)習(xí)解決了化學(xué)反應(yīng)優(yōu)化問(wèn)題。

DeepMind還展示了如何使用生成模型與強(qiáng)化學(xué)習(xí)生成程序。在這套模型中,以對(duì)抗方式訓(xùn)練而成的代理會(huì)將對(duì)抗信號(hào)作為改善行動(dòng)的獎(jiǎng)勵(lì),這種方式與GAN(生成對(duì)抗網(wǎng)絡(luò))將梯度傳播至入口空間的方法有所不同。

總結(jié):何時(shí)開(kāi)始使用強(qiáng)化學(xué)習(xí)?

所謂強(qiáng)化,是指根據(jù)制定的決策配合獎(jiǎng)勵(lì)摸索最佳方法;這類(lèi)能夠隨時(shí)與環(huán)境交互并從中學(xué)習(xí)。每做出一項(xiàng)正確行動(dòng),我們都將予以獎(jiǎng)勵(lì);錯(cuò)誤行動(dòng)則對(duì)應(yīng)懲罰。在行業(yè)當(dāng)中,這類(lèi)學(xué)習(xí)方法將有助于優(yōu)化流程、模擬、監(jiān)控、維護(hù)并有望催生出強(qiáng)大的自治型系統(tǒng)。

大家可以參考以下標(biāo)準(zhǔn)思考何時(shí)在何處使用強(qiáng)化學(xué)習(xí)技術(shù):

? 需要對(duì)復(fù)雜甚至存在一定危險(xiǎn)性的特定流程進(jìn)行模擬時(shí)。

? 處理某些需要大量人類(lèi)分析師及領(lǐng)域?qū)<业奶囟▎?wèn)題時(shí)。強(qiáng)化學(xué)習(xí)方法能夠模仿人類(lèi)的推理過(guò)程,而非單純預(yù)測(cè)最佳策略。

? 能夠?yàn)閷W(xué)習(xí)算法提供良好的獎(jiǎng)勵(lì)定義時(shí)。你可以在每次交互中正確對(duì)模型進(jìn)行校準(zhǔn),借此保證獎(jiǎng)勵(lì)總比懲罰多,幫助模型逐步摸索出正確的解決路線(xiàn)。

? 當(dāng)缺少關(guān)于特定問(wèn)題的充足數(shù)據(jù)時(shí)。除了工業(yè)領(lǐng)域之外,強(qiáng)化學(xué)習(xí)也廣泛適用于教育、衛(wèi)生、金融、圖像以及文本識(shí)別等各個(gè)行業(yè)。

除了工業(yè)領(lǐng)域之外,強(qiáng)化學(xué)習(xí)也廣泛適用于教育、衛(wèi)生、金融、圖像以及文本識(shí)別等各個(gè)行業(yè)。

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀(guān)點(diǎn))

更多
暫無(wú)評(píng)論