免费一级国产片在线观看,樱花草视频WWW,亚洲国产原创私拍精品

強(qiáng)化學(xué)習(xí)到底是什么，它如何運(yùn)作？

2020-11-05 15:43

科技行者

我愛(ài)至尊寶

強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)中的一個(gè)子集，它使代理能夠理解在特定環(huán)境中執(zhí)行特定操作的相應(yīng)結(jié)果。目前，相當(dāng)一部分機(jī)器人就在使用強(qiáng)化學(xué)習(xí)掌握種種新能力。強(qiáng)化學(xué)習(xí)是一種行為學(xué)習(xí)模型，由算法提供數(shù)據(jù)分析反饋，引導(dǎo)用戶(hù)逐步獲取最佳結(jié)果。

強(qiáng)化學(xué)習(xí)是一種行為學(xué)習(xí)模型，由算法提供數(shù)據(jù)分析反饋，引導(dǎo)用戶(hù)逐步獲取最佳結(jié)果。

不同于使用樣本數(shù)據(jù)集訓(xùn)練機(jī)器模型的各類(lèi)監(jiān)督學(xué)習(xí)，強(qiáng)化學(xué)習(xí)嘗試通過(guò)反復(fù)試驗(yàn)掌握個(gè)中訣竅。通過(guò)一系列正確的決策，模型本身將得到逐步強(qiáng)化，慢慢掌控解決問(wèn)題的更佳方法。

強(qiáng)化學(xué)習(xí)與人類(lèi)在嬰幼兒時(shí)期的學(xué)習(xí)過(guò)程非常相似。我們每個(gè)人的成長(zhǎng)都離不開(kāi)這種學(xué)習(xí)強(qiáng)化——正是在一次又一次跌倒與父母的幫扶之下，我們才最終站立起來(lái)。

這是一種基于經(jīng)驗(yàn)的學(xué)習(xí)流程，機(jī)器會(huì)不斷嘗試、不斷犯錯(cuò)，最終找到正確的解決思路。

我們只需要為機(jī)器模型提供最基本的“游戲規(guī)則”，余下的就完全交給模型自主探索。模型將從隨機(jī)嘗試開(kāi)始，一步步建立起自己的復(fù)雜戰(zhàn)術(shù)，通過(guò)無(wú)數(shù)次嘗試達(dá)成任務(wù)、獲得獎(jiǎng)勵(lì)。

事實(shí)證明，強(qiáng)化學(xué)習(xí)已經(jīng)成為培養(yǎng)機(jī)器人想象力的重要方法之一。不同于普通人類(lèi)，人工智能將從成千上萬(wàn)輪游戲中積累知識(shí)，而強(qiáng)大的計(jì)算機(jī)基礎(chǔ)設(shè)施則為這類(lèi)模型提供可靠的算力支持。

YouTube上的視頻就是強(qiáng)化學(xué)習(xí)的應(yīng)用實(shí)例。在觀(guān)看當(dāng)前視頻之后，該平臺(tái)會(huì)向你展示它認(rèn)為你可能感興趣的類(lèi)似內(nèi)容。如果你點(diǎn)開(kāi)了推薦視頻但卻沒(méi)有看完，機(jī)器會(huì)認(rèn)為此次推薦失敗，并在下一次嘗試其他推薦方法。

強(qiáng)化學(xué)習(xí)的挑戰(zhàn)

強(qiáng)化學(xué)習(xí)面對(duì)的核心挑戰(zhàn)，在于如何規(guī)模模擬環(huán)境。模擬環(huán)境在很大程度上由有待執(zhí)行的任務(wù)所決定。我們以國(guó)際象棋、圍棋或者雅達(dá)利游戲?yàn)槔@類(lèi)模擬環(huán)境相對(duì)簡(jiǎn)單也易于構(gòu)建。但是，要想用同樣的方法訓(xùn)練出安全可靠的自動(dòng)駕駛汽車(chē)，就必須創(chuàng)建出非常逼真的街道原型環(huán)境，引入突然闖出的行人或者可能導(dǎo)致碰撞事故的各類(lèi)因素。如果仿真度不夠，那么模型在從訓(xùn)練環(huán)境轉(zhuǎn)移到現(xiàn)實(shí)場(chǎng)景之后，就會(huì)出現(xiàn)一系列問(wèn)題。

另一個(gè)難題，在于如何擴(kuò)展及修改代理的神經(jīng)網(wǎng)絡(luò)。除了獎(jiǎng)勵(lì)與處罰之外，我們?cè)贌o(wú)其他方法與該網(wǎng)絡(luò)建立聯(lián)系。這有可能引發(fā)嚴(yán)重的“健忘”癥狀，即網(wǎng)絡(luò)在獲取新信息后，會(huì)將一部分可能非常重要的舊知識(shí)清除出去。換句話(huà)說(shuō)，我們需要想辦法管理學(xué)習(xí)模型的“記憶”。

最后，我們還得防止機(jī)器代理“作弊”。有時(shí)候，機(jī)器模型能夠獲得良好的結(jié)果，但實(shí)現(xiàn)方式卻與我們的預(yù)期相去甚遠(yuǎn)。一部分代理甚至?xí)诓煌瓿蓪?shí)際任務(wù)的情況下，通過(guò)“渾水摸魚(yú)”拿到最大獎(jiǎng)勵(lì)。

強(qiáng)化學(xué)習(xí)的應(yīng)用領(lǐng)域

游戲

機(jī)器學(xué)習(xí)之所以具有極高的知名度，主要源自它在解決各類(lèi)游戲問(wèn)題時(shí)展現(xiàn)出的驚人實(shí)力。

最著名的自然是AlphaGo與AlphaGo Zero。AlphaGo通過(guò)無(wú)數(shù)人類(lèi)棋手的棋譜進(jìn)行大量訓(xùn)練，憑借策略網(wǎng)絡(luò)中的蒙特卡洛樹(shù)價(jià)值研究與價(jià)值網(wǎng)絡(luò)（MCTS）獲得了超人的棋力。但研究人員隨后又嘗試了另一種更加純粹的強(qiáng)化學(xué)習(xí)方法——從零開(kāi)始訓(xùn)練機(jī)器模型。最終，新的代理AlphaGo Zero出現(xiàn)，其學(xué)習(xí)過(guò)程完全源自自主摸索、不添加任何人為數(shù)據(jù)，最終以100-0的碾壓性?xún)?yōu)勢(shì)戰(zhàn)勝了前輩AlphaGo。

個(gè)性化推薦

新聞內(nèi)容推薦是一項(xiàng)歷史性難題，快速變化的新聞動(dòng)態(tài)、隨時(shí)可能轉(zhuǎn)變的用戶(hù)喜好再加上與用戶(hù)留存率若即若離的點(diǎn)擊率都讓研究人員頭痛不已。Guanjie等研究者發(fā)布的《DRN：用于新聞推薦的深度強(qiáng)化學(xué)習(xí)框架》一文，希望探討如何將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于新聞推薦系統(tǒng)以攻克這一重大挑戰(zhàn)。

為此，他們構(gòu)建起四種資源類(lèi)別，分別為：1）用戶(hù)資源；2）上下文資源（例如環(huán)境狀態(tài)資源）；3）用戶(hù)新聞資源；4）新聞資源（例如行動(dòng)資源）。他們將這四種資源插入深度Q網(wǎng)絡(luò)（DQN）以計(jì)算Q值。隨后，他們以Q值為基礎(chǔ)選擇一份新聞列表進(jìn)行推薦，并將用戶(hù)對(duì)推薦內(nèi)容的點(diǎn)擊情況作為強(qiáng)化學(xué)習(xí)代理的重要獎(jiǎng)勵(lì)指標(biāo)。

作者們還采用其他技術(shù)以解決相關(guān)難題，包括記憶重復(fù)、生存模型、Dueling Bandit Gradient Descent等方法。

計(jì)算機(jī)集群中的資源管理

如何設(shè)計(jì)算法以將有限的資源分配給不同任務(wù)同樣是一項(xiàng)充滿(mǎn)挑戰(zhàn)的課題，而且往往需要人為啟發(fā)的引導(dǎo)。

題為《使用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)資源管理》的論文介紹了如何使用強(qiáng)化學(xué)習(xí)讓模型自動(dòng)探索如何為保留的作業(yè)分配及調(diào)度計(jì)算機(jī)資源，借此最大程度降低平均作業(yè)（任務(wù)）的處理時(shí)長(zhǎng)。

這種方法用“狀態(tài)空間”來(lái)表現(xiàn)當(dāng)前資源分配與作業(yè)的資源配置方式。而在行動(dòng)空間方面，他們使用一種技巧，允許代理在各個(gè)時(shí)間階段選擇多項(xiàng)行動(dòng)。獎(jiǎng)勵(lì)則是系統(tǒng)中所有作業(yè)的總和（-1/作業(yè)持續(xù)時(shí)間）。接下來(lái)，他們將強(qiáng)化學(xué)習(xí)算法與基準(zhǔn)值相結(jié)合，借此計(jì)算策略梯度，找出最佳策略參數(shù)，憑借這些參數(shù)計(jì)算出能夠?qū)崿F(xiàn)目標(biāo)最小化的行動(dòng)概率分布。

交通燈控制

在題為《基于強(qiáng)化學(xué)習(xí)的多代理交通信號(hào)網(wǎng)絡(luò)控制系統(tǒng)》一文中，研究人員嘗試設(shè)計(jì)一種交通信號(hào)燈控制方案，借此解決交通擁堵問(wèn)題。他們的方法僅在模擬環(huán)境下進(jìn)行了測(cè)試，并表現(xiàn)出優(yōu)于傳統(tǒng)方法的性能水平，這也體現(xiàn)出在交通系統(tǒng)設(shè)計(jì)中引入多代理強(qiáng)化學(xué)習(xí)技術(shù)的潛在可行性。

他們?cè)谖鍌€(gè)路口的交通網(wǎng)絡(luò)中部署了五個(gè)代理，并在中央路口處部署強(qiáng)化學(xué)習(xí)代理以控制交通信號(hào)。他們將交通狀態(tài)定義為8維向量，每個(gè)元素代表各條車(chē)道的相對(duì)交通流量。每個(gè)代理可以從8種選項(xiàng)中任選其一，各選項(xiàng)代表每個(gè)階段的組合，獎(jiǎng)勵(lì)條件則是新的組合必須在交通流量延遲方面優(yōu)于前一組合。作者們使用SQN計(jì)算對(duì)的Q值。

機(jī)器人

強(qiáng)化學(xué)習(xí)在機(jī)器人技術(shù)領(lǐng)域的應(yīng)用同樣大放異彩。感興趣的朋友請(qǐng)關(guān)注強(qiáng)化學(xué)習(xí)在機(jī)器人領(lǐng)域的研究成果。在這方面，研究人員們通過(guò)訓(xùn)練引導(dǎo)機(jī)器人學(xué)習(xí)策略，嘗試將原始視頻圖像與機(jī)器人的行動(dòng)映射起來(lái)。將RGB圖像輸入CNN進(jìn)行計(jì)算，最終輸出的則是各臺(tái)驅(qū)動(dòng)引擎的扭矩。強(qiáng)化學(xué)習(xí)組件負(fù)責(zé)根據(jù)訓(xùn)練數(shù)據(jù)中的狀態(tài)分布總結(jié)出準(zhǔn)確的轉(zhuǎn)換策略。

網(wǎng)絡(luò)系統(tǒng)配置

網(wǎng)絡(luò)系統(tǒng)當(dāng)中往往包含超過(guò)100項(xiàng)可配置參數(shù)，而參數(shù)調(diào)整過(guò)程則需要合格的操作人員持續(xù)進(jìn)行跟蹤與錯(cuò)誤測(cè)試。

題為《強(qiáng)化在線(xiàn)網(wǎng)絡(luò)系統(tǒng)自我配置能力的學(xué)習(xí)方法》的論文，介紹了研究人員如何在基于動(dòng)態(tài)虛擬機(jī)的環(huán)境中自動(dòng)重新配置多層網(wǎng)絡(luò)系統(tǒng)內(nèi)各項(xiàng)參數(shù)的首次嘗試。

研究人員可以將重新配置的流程公式化為有限MDP（馬爾科夫決策流程）的形式。其中的狀態(tài)空間為系統(tǒng)配置，各參數(shù)的行動(dòng)空間則包括。獎(jiǎng)勵(lì)被定義為預(yù)期響應(yīng)時(shí)間與實(shí)測(cè)響應(yīng)時(shí)間之差。作者使用Q學(xué)習(xí)算法執(zhí)行這項(xiàng)任務(wù)。

當(dāng)然，作者也使用了其他一些技術(shù)（例如策略初始化）以解決較大狀態(tài)空間與復(fù)雜問(wèn)題場(chǎng)景下的計(jì)算難度問(wèn)題，因此并不能算單純依靠強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)組合實(shí)現(xiàn)。但可以相信，這項(xiàng)開(kāi)拓性工作為未來(lái)的探索鋪平了道路。

化學(xué)

強(qiáng)化學(xué)習(xí)在優(yōu)化化學(xué)反應(yīng)方面同樣表現(xiàn)出色。研究人員們發(fā)現(xiàn)，他們的模型已經(jīng)摸索出極為先進(jìn)的算法，《通過(guò)深度強(qiáng)化學(xué)習(xí)優(yōu)化化學(xué)反應(yīng)》一文還探討了如何將這種算法推廣到多種不同的潛在場(chǎng)景當(dāng)中。

配合LSTM（長(zhǎng)短期記憶網(wǎng)絡(luò)）對(duì)策略特征進(jìn)行建模，強(qiáng)化學(xué)習(xí)代理通過(guò)以為特征的馬爾科夫決策流程（MDP）優(yōu)化了化學(xué)反應(yīng)。其中的S代表一組實(shí)驗(yàn)條件（例如溫度、pH等），A為可以調(diào)整的一切可能行動(dòng)的集合，P為從當(dāng)前實(shí)驗(yàn)條件轉(zhuǎn)換至下一條件的概率，R則為狀態(tài)獎(jiǎng)勵(lì)函數(shù)。

這套應(yīng)用方案很好地演示了強(qiáng)化學(xué)習(xí)技術(shù)如何在相對(duì)穩(wěn)定的環(huán)境下減少試錯(cuò)次數(shù)并縮短學(xué)習(xí)周期。

拍賣(mài)與廣告

阿里巴巴公司的研究人員發(fā)表了《在廣告展示中采用多代理強(qiáng)化學(xué)習(xí)進(jìn)行實(shí)時(shí)競(jìng)拍》一文，表示其基于集群的分布式多代理解決方案（DCMAB）取得了可喜的成果，并計(jì)劃在下一步研究中投放淘寶平臺(tái)進(jìn)行實(shí)際測(cè)試。

總體而言，淘寶廣告平臺(tái)負(fù)責(zé)為經(jīng)銷(xiāo)商提供可供競(jìng)拍的廣告展示區(qū)域。目前大多數(shù)代理無(wú)法快速解決這個(gè)問(wèn)題，因?yàn)榻灰渍咄ハ喔?jìng)標(biāo)，而且出價(jià)往往與其業(yè)務(wù)及決策密切相關(guān)。在這篇論文中，研究人員將商戶(hù)與客戶(hù)劃分為不同的組以降低計(jì)算復(fù)雜性。各代理的狀態(tài)空間表示代理本身的成本-收入狀態(tài)，行動(dòng)空間為（連續(xù)）競(jìng)標(biāo)，獎(jiǎng)勵(lì)則為客戶(hù)集群收入。

深度學(xué)習(xí)

近期，越來(lái)越多研究人員開(kāi)始嘗試將強(qiáng)化學(xué)習(xí)與其他深度學(xué)習(xí)架構(gòu)相結(jié)合，并帶來(lái)了令人印象深刻的成果。

其中最具影響力的成果之一，正是DeepMind將CNN與強(qiáng)化學(xué)習(xí)相結(jié)合做出的嘗試。以此為基礎(chǔ)，代理可以通過(guò)高維傳感器“觀(guān)察”環(huán)境，而后學(xué)習(xí)如何與之交互。

CNN配合強(qiáng)化學(xué)習(xí)已經(jīng)成為人們探索新思路的有力組合。RNN是一種具有“記憶”的神經(jīng)網(wǎng)絡(luò)。與強(qiáng)化學(xué)習(xí)結(jié)合使用，RNN將為代理提供記憶能力。例如，研究人員將LSTM與強(qiáng)化學(xué)習(xí)進(jìn)行組合，創(chuàng)建出一套深循環(huán)Q網(wǎng)絡(luò)（DRQN）并學(xué)習(xí)如何游玩雅達(dá)利游戲。他們還使用LSTM加強(qiáng)化學(xué)習(xí)解決了化學(xué)反應(yīng)優(yōu)化問(wèn)題。

DeepMind還展示了如何使用生成模型與強(qiáng)化學(xué)習(xí)生成程序。在這套模型中，以對(duì)抗方式訓(xùn)練而成的代理會(huì)將對(duì)抗信號(hào)作為改善行動(dòng)的獎(jiǎng)勵(lì)，這種方式與GAN（生成對(duì)抗網(wǎng)絡(luò)）將梯度傳播至入口空間的方法有所不同。

總結(jié)：何時(shí)開(kāi)始使用強(qiáng)化學(xué)習(xí)？

所謂強(qiáng)化，是指根據(jù)制定的決策配合獎(jiǎng)勵(lì)摸索最佳方法；這類(lèi)能夠隨時(shí)與環(huán)境交互并從中學(xué)習(xí)。每做出一項(xiàng)正確行動(dòng)，我們都將予以獎(jiǎng)勵(lì)；錯(cuò)誤行動(dòng)則對(duì)應(yīng)懲罰。在行業(yè)當(dāng)中，這類(lèi)學(xué)習(xí)方法將有助于優(yōu)化流程、模擬、監(jiān)控、維護(hù)并有望催生出強(qiáng)大的自治型系統(tǒng)。

大家可以參考以下標(biāo)準(zhǔn)思考何時(shí)在何處使用強(qiáng)化學(xué)習(xí)技術(shù)：

? 需要對(duì)復(fù)雜甚至存在一定危險(xiǎn)性的特定流程進(jìn)行模擬時(shí)。

? 處理某些需要大量人類(lèi)分析師及領(lǐng)域?qū)＜业奶囟▎?wèn)題時(shí)。強(qiáng)化學(xué)習(xí)方法能夠模仿人類(lèi)的推理過(guò)程，而非單純預(yù)測(cè)最佳策略。

? 能夠?yàn)閷W(xué)習(xí)算法提供良好的獎(jiǎng)勵(lì)定義時(shí)。你可以在每次交互中正確對(duì)模型進(jìn)行校準(zhǔn)，借此保證獎(jiǎng)勵(lì)總比懲罰多，幫助模型逐步摸索出正確的解決路線(xiàn)。

? 當(dāng)缺少關(guān)于特定問(wèn)題的充足數(shù)據(jù)時(shí)。除了工業(yè)領(lǐng)域之外，強(qiáng)化學(xué)習(xí)也廣泛適用于教育、衛(wèi)生、金融、圖像以及文本識(shí)別等各個(gè)行業(yè)。

除了工業(yè)領(lǐng)域之外，強(qiáng)化學(xué)習(xí)也廣泛適用于教育、衛(wèi)生、金融、圖像以及文本識(shí)別等各個(gè)行業(yè)。

THEEND

免責(zé)聲明：凡注明為其它來(lái)源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類(lèi)作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門(mén)

精選文章

熱點(diǎn)資訊

數(shù)字孿生技術(shù)與智能建筑設(shè)施管理

強(qiáng)化學(xué)習(xí)到底是什么，它如何運(yùn)作？

2024 信息化觀(guān)察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

強(qiáng)化學(xué)習(xí)到底是什么，它如何運(yùn)作？

最新評(píng)論（評(píng)論僅代表用戶(hù)觀(guān)點(diǎn)）

“AI+”撬動(dòng)新質(zhì)生產(chǎn)力發(fā)展　塑造“數(shù)實(shí)融合”新機(jī)遇

探索四種主要類(lèi)型的人工智能

虛擬現(xiàn)實(shí)：游戲、人工智能和沉浸式體驗(yàn)的未來(lái)

在邊緣部署人工智能的三個(gè)好處

本月熱門(mén)

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國(guó)際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車(chē)涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬(wàn)億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

“以數(shù)見(jiàn)智數(shù)智共生”2021中國(guó)大數(shù)據(jù)技術(shù)應(yīng)用大會(huì)在京隆重召開(kāi)

向“服務(wù)型”云底座邁進(jìn) 武漢云“五心服務(wù)”全方位支撐武漢智慧城市建設(shè)

聚力產(chǎn)學(xué)研用融合發(fā)展吉大正元投建網(wǎng)絡(luò)安全產(chǎn)業(yè)園區(qū)

惟實(shí)勵(lì)新，嘉速起航 | 熱烈慶祝上海嘉誠(chéng)開(kāi)業(yè)大吉!

民政部信息中心王興玲：數(shù)字賦能民政規(guī)劃引領(lǐng)未來(lái)

芯軟智控與中興通訊共同攜手：筑路數(shù)字經(jīng)濟(jì) 共贏(yíng)云網(wǎng)生態(tài)

熱點(diǎn)資訊

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來(lái)|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

政策寶|構(gòu)筑企業(yè)與政策間的高效數(shù)據(jù)通道，跑出惠企助企加速度

政策智能匹配與業(yè)務(wù)線(xiàn)索：企業(yè)騰飛的雙重動(dòng)力引擎!

數(shù)字孿生技術(shù)與智能建筑設(shè)施管理

中央定調(diào)!八大前沿領(lǐng)域成未來(lái)5年發(fā)展重點(diǎn)

強(qiáng)化學(xué)習(xí)到底是什么，它如何運(yùn)作？

最新評(píng)論（評(píng)論僅代表用戶(hù)觀(guān)點(diǎn)）

欄目推薦

“AI+”撬動(dòng)新質(zhì)生產(chǎn)力發(fā)展 塑造“數(shù)實(shí)融合”新機(jī)遇

探索四種主要類(lèi)型的人工智能

虛擬現(xiàn)實(shí)：游戲、人工智能和沉浸式體驗(yàn)的未來(lái)

在邊緣部署人工智能的三個(gè)好處

本月熱門(mén)

精選文章

熱點(diǎn)資訊

數(shù)字孿生技術(shù)與智能建筑設(shè)施管理

中央定調(diào)!八大前沿領(lǐng)域成未來(lái)5年發(fā)展重點(diǎn)

強(qiáng)化學(xué)習(xí)到底是什么，它如何運(yùn)作？

“AI+”撬動(dòng)新質(zhì)生產(chǎn)力發(fā)展　塑造“數(shù)實(shí)融合”新機(jī)遇

虛擬現(xiàn)實(shí)：游戲、人工智能和沉浸式體驗(yàn)的未來(lái)