深度強化學習中文綜述-計算機學報

上傳人：奔*** IP屬地：河北更新時間：2024-03-13 格式：pdf 頁數：28 大?。?.24MB 人氣指數：12 舉報 版權申訴

已閱讀1頁，還剩27頁未讀，繼續免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、第 40 卷計算機學報 Vol. 40 2017 年論文在線出版號 No.1 CHINESE JOURNAL OF COMPUTERS Online Publishing No.1 ——————————————— 本課題得到國家自然科學基金項目(61472262, 61303108, 61373094, 61502323, 61502329)、蘇州市應用基礎研究計劃工業部分（SYG201422, S

2、YG201308）資助．劉全（通訊作者），男，1969 年生，博士，教授，博士生導師，中國計算機協會(CCF)高級會員，主要研究方向為強化學習、深度強化學習和自動推理.E-mail:quanliu@suda.edu.cn. 翟建偉，男， 1992 年生，碩士研究生，主要研究方向為強化學習、深度學習和深度強化學習. 章宗長, 男, 1985 年生, 博士, 副教授, 計算機學會會員, 主要研究領域為部分感知的馬爾可夫決策過程、強

3、化學習和多 agent 系統. 鐘珊，女，1983 年生，博士研究生，主要研究方向為機器學習和深度學習. 周倩，女，1992 年生，碩士研究生，主要研究方向為強化學習.章鵬，男，1992 年生，碩士研究生，主要研究方向為連續空間強化學習. 徐進，男，1991 年生，碩士研究生，主要研究方向為連續空間深度強化學習. 深度強化學習綜述劉全+ 翟建偉章宗長鐘珊周倩章鵬徐

4、進 1)(蘇州大學計算機科學與技術學院江蘇蘇州 215006) 2)(軟件新技術與產業化協同創新中心南京 210000) 摘要深度強化學習是人工智能領域的一個新的研究熱點．它以一種通用的形式將深度學習的感知能力與強化學習的決策能力相結合，并能夠通過端對端的學習方式實現從原始輸入到輸出的直接控制．自提出以來，在許多需要感知高維度原始輸入數據和決策控制的任務中，深度強化學習方法已經取得了實質性的突破．該文首先闡述了 3 類主要

5、的深度強化學習方法，包括基于值函數的深度強化學習、基于策略梯度的深度強化學習和基于搜索與監督的深度強化學習；其次對深度強化學習領域的一些前沿研究方向進行了綜述，包括分層深度強化學習、多任務遷移深度強化學習、多智能體深度強化學習、基于記憶與推理的深度強化學習等．最后總結了深度強化學習在若干領域的成功應用和未來發展趨勢．關鍵詞人工智能；深度學習；強化學習；深度強化學習中圖法分類號 TP18 論文引用格式論文引用格式：

6、劉全,翟建偉,章宗長,鐘珊,周倩,章鵬,徐進,深度強化學習綜述,2017，Vol.40,在線出版號 No.1 LIU Quan, ZHAI Jian-Wei, ZHANG Zong-Zhang, ZHONG Shan, ZHOU Qian, ZHANG Peng, XU Jin, A Survey on Deep Reinforcement Learning, 2017,Vol.40,Online Publishing No.1 A

7、Survey on Deep Reinforcement Learning LIU Quan ZHAI Jian-Wei ZHANG Zong-Zhang ZHONG Shan ZHOU Qian ZHANG Peng XU Jin 1)(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006) 2)(Coll

8、aborative Innovation Center of Novel Software Technology and Industrialization, Nanjing 210000) Abstract Deep reinforcement learning (DRL) is a new research hotspot in the artificial intelligence community. By using a g

9、eneral-purpose form, DRL integrates the advantages of the perception of deep learning (DL) and the decision making of reinforcement learning (RL), and gains the output control directly based on raw inputs by the end-to-e

10、nd learning process. DRL has made substantial breakthroughs in a variety of tasks requiring both rich perception of high-dimensional raw inputs and policy control since it was proposed. In this paper, we systematically d

11、escribe three main categories of DRL methods. Firstly, we summarize value-based DRL methods. The core idea behind them is to approximate the value function by using deep neural networks which have strong ability of perce

12、ption. We introduce an epoch-making value-based DRL method called Deep Q-Network (DQN) and its variants. These variants are divided into two categories: improvements of training algorithm and improvements of model archit

13、ecture. The first category includes Deep Double Q-Network (DDQN), DQN based on advantage learning technique, and DDQN with proportional prioritization. The second one includes Deep Recurrent Q-Network (DRQN) and a method

14、 based on Dueling Network architecture. In general, value-based DRL methods are good at dealing with large-scale problems with discrete action spaces. We then summarize policy-based DRL methods. Their powerful idea is to

15、 use deep neural networks to parameterize the policies and 論文在線出版號 No.1 劉全等：深度強化學習綜述 3 基于值函數的DRL基于策略梯度的DRL基于搜索與監督的DRLDLRLDRL的起步DRL的成功應用DRL的發展趨勢分層DRL多任務遷移DRL多智能體DRL基于記憶與推理的DRLDRL中探索與利用的平衡問題1、預備知識2、主要方法 3、前沿研究4、成功應用和發展趨

16、勢圖 2 本文的整體架構 2 預備知識預備知識 2.1 深度學習 DL 的概念源于人工神經網絡（Artificial Neural Network ，ANN ）．含多隱藏層的多層感知器（Multi-Layer Perceptron， MLP）是 DL 模型的一個典型范例．DL 模型通常由多層的非線性運算單元組合而成．其將較低層的輸出作為更高一層的輸入，通過這種方式自動地從大量訓練數據中學習抽象的特征表示，以發現數據的分布式特征

17、[28]．與淺層網絡相比，傳統的多隱藏層網絡模型有更好的特征表達能力，但由于計算能力不足、訓練數據缺乏、梯度彌散等原因，使其一直無法取得突破性進展．直到 2006 年，深度神經網絡的研究迎來了轉機． Hinton 等人[29]提出了一種訓練深層神經網絡的基本原則：先用非監督學習對網絡逐層進行貪婪的預訓練，再用監督學習對整個網絡進行微調．這種預訓練的方式為深度神經網絡提供了較理想的初始參數，降低了深度神經網絡的優化難度．此后幾年，各種

18、 DL 模型被相繼提出．包括堆棧式自動編碼器[30-31]（Stacked Auto-Encoder，SAE）、限制玻爾茲曼機 [32-33]（Restricted Boltzmann Machine，RBM）、深度信念網絡[33-34]（Deep Belief Network，DBN）、循環神經網絡 [35-36]（Recurrent Neural Network，RNN）等．隨著訓練數據的增長和計算能力的提升，卷積神經網絡（Con

19、volutional Neural Network，CNN）開始在各領域中得到廣泛應用．Krizhevsky 等人[2]在2012年提出了一種稱為AlexNet的深度卷積神經網絡，并在當年的 ImageNet 圖像分類競賽中，大幅度降低了圖像識別的 top-5 錯誤率．此后，卷積神經網絡朝著以下 4 個方向迅速發展：（1）增加網絡的層數．在 2014 年，視覺幾何組（Visual Geometry Group，VGG）的 Simony

20、an等人[37]提出了 VGG-Net 模型，進一步降低了圖像識別的錯誤率．He 等人[38]提出了一種擴展深度卷積神經網絡的高效方法；（2）增加卷積模塊的功能． Lin 等人[39]利用多層感知卷積層替代傳統的卷積操作，提出了一種稱為 Network in Network（NIN）的深度卷積網絡模型．Szegedy 等人[40]在現有網絡模型中加入一種新穎的 Inception 結構，提出了 NIN 的改進版本GoogleNet，

21、并在 2014 年取得了 ILSVRC 物體檢測的冠軍；（3）增加網絡層數和卷積模塊功能．He 等人[41]提出了深度殘差網絡（Deep Residual Network，DRN），并在 2015 年取得了 ILSVRC 物體檢測和物體識別的雙料冠軍．Szegedy 等人[42]進一步將Inception 結構與 DRN 相結合，提出了基于 Inception結構的深度殘差網絡（Inception Residual Network，

22、IRN）．此后，He 等人[43]提出了恒等映射的深度殘差網絡（ Identify Mapping Residual Network ，IMRN），進一步提升了物體檢測和物體識別的準確率；（4）增加新的網絡模塊．向卷積神經網絡中加入循環神經網絡[44]（Recurrent Neural Network，RNN）、注意力機制[45] （Attention Mechanism， AM）等結構． 2.2 強化學習 RL 是一種從

眾賞文庫> 全部分類> 畢業設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

深度強化學習中文綜述-計算機學報

文檔簡介

溫馨提示

最新文檔

評論

深度強化學習中文綜述-計算機學報

文檔簡介

溫馨提示

最新文檔

評論

免費下載