不用從零開始訓練 融合離線/在線強化學習的新算法能更好控制機器人

近年來,越來越多的研究人員開發(fā)了基于人工神經(jīng)網(wǎng)絡的模型,這些模型可以使用強化學習(RL)技術進行訓練。RL需要訓練人工智能體來解決各種各樣的任務,當它們表現(xiàn)良好,例如正確地對圖像進行分類時,給予它們“獎勵”。

近年來,越來越多的研究人員開發(fā)了基于人工神經(jīng)網(wǎng)絡的模型,這些模型可以使用強化學習(RL)技術進行訓練。RL需要訓練人工智能體來解決各種各樣的任務,當它們表現(xiàn)良好,例如正確地對圖像進行分類時,給予它們“獎勵”。

到目前為止,大多數(shù)基于ANN的模型都是使用在線RL方法進行訓練的。在這種方法中,一個從未接觸過目標任務的Agent(能自主活動的軟件或者硬件實體),通過與在線虛擬環(huán)境交互來學習。然而,這種方法相當昂貴、耗時且效率低下。

最近,一些研究探討了離線訓練模型的可能性。在這種情況下,Agent通過分析固定的數(shù)據(jù)集來學習完成給定的任務,因此不會主動與虛擬環(huán)境交互。而這種方法雖然在某些任務上取得了很好的效果,但它們不允許代理實時主動學習。

加州大學伯克利分校的研究人員最近引入了一種新的算法,融合了在線和離線RL方法對AI進行訓練。該算法是在arXiv上預先發(fā)表的一篇論文中提出的,它最初是在大量離線數(shù)據(jù)的基礎上進行訓練的,但同時也完成了一系列的在線訓練試驗。

在回顧過去的RL文獻時,研究人員意識到,以前開發(fā)的模型在離線訓練和在線微調(diào)時表現(xiàn)不佳,通常是因為他們學習太慢或在培訓期間沒有充分利用離線數(shù)據(jù)集。

他們指出,過去的一個問題是,工程師總是讓模型從零開始學習任務,而不是能夠利用現(xiàn)有的數(shù)據(jù)集進行RL,他們花費了太長的時間和太多的精力來評估機器人上在真實世界中的運行。新方法則是通過已有數(shù)據(jù)對模型進行預訓練,只進行少量額外的真實世界交互。

他們觀察到,在諸如優(yōu)勢加權回歸(AWR)和演示增強策略梯度(DAPG)等策略技術上,通常用于在線微調(diào)模型,與非策略方法相比,學習速度通常非常慢。

非策略方法,如軟角色批評(SAC)方法,在離線數(shù)據(jù)集上訓練時,通常沒有太大改善。

離線訓練模型的技術,如bootstrap錯誤累積減少(BEAR)、行為規(guī)則化演員批評(BRAC)和優(yōu)勢行為模型(ABM)通常在離線預訓練階段效果良好,但在線訓練后,它們的表現(xiàn)并沒有太大改善,這主要是因為它們依賴于行為模型。

面對這些挑戰(zhàn),研究人員開發(fā)了優(yōu)勢加權Actor評價(AWAC)算法,這是一種非策略性的Actor評價算法,它不依賴行為模型來接近數(shù)據(jù)分布。相反,它可以通過抽樣得出一種隱式地接近數(shù)據(jù)的算法。

研究人員評估了他們的算法在不同的操作任務中的性能,這些任務有三個關鍵方面,即復雜的不連續(xù)接觸、極稀疏的二進制獎勵和30個關節(jié)的控制。

更具體地說,他們的算法被訓練來控制機器人的運動,讓它旋轉手中的筆、打開門以及拿起一個球并將其移動到所需的位置。對于每一項任務,奈爾和他的同事們在一個離線數(shù)據(jù)集上訓練該算法,該數(shù)據(jù)集包含25個人類演示和500個非策略數(shù)據(jù)的軌跡,這些數(shù)據(jù)是通過行為克隆技術獲得的。

第1個任務筆旋轉相對來說比較簡單,很多方法最終都能解決這個問題,但AWAC是最快的,第2和第3個任務只有AWAC能解決了。老方法失敗的原因有很多,但主要是無法獲得合理的初始策略來收集良好的勘探數(shù)據(jù),或者無法從交互數(shù)據(jù)中在線學習。

在9種方法中,AWAC是唯一一種能夠持續(xù)解決他們測試過的復雜操作任務的方法。

在未來,該算法可以使用RL在更廣泛的任務范圍內(nèi)訓練模型。其他研究團隊也可以從他們的工作中獲得靈感,并設計出類似的RL方法,將離線和在線培訓結合起來。

編譯/前瞻經(jīng)濟學人APP資訊組

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論