深度逆向强化学习研究综述

doi:10.3778/j.issn.1002-8331.1711-0289

计算机工程与应用 ›› 2018, Vol. 54 ›› Issue (5): 24-35.DOI: 10.3778/j.issn.1002-8331.1711-0289

深度逆向强化学习研究综述

陈希亮，曹雷，何明，李晨溪，徐志雄

陆军工程大学指挥信息系统学院，南京 210007

出版日期:2018-03-01 发布日期:2018-03-13

Overview of deep inverse reinforcement learning

CHEN Xiliang, CAO Lei, HE Ming, LI Chenxi, XU Zhixiong

College of Command Information System, Army Engineering University, Nanjing 210007, China

Online:2018-03-01 Published:2018-03-13

摘要/Abstract

摘要： 深度逆向强化学习是机器学习领域的一个新的研究热点，它针对深度强化学习的回报函数难以获取问题，提出了通过专家示例轨迹重构回报函数的方法。首先介绍了3类深度强化学习方法的经典算法；接着阐述了经典的逆向强化学习算法，包括基于学徒学习、最大边际规划、结构化分类和概率模型形式化的方法；然后对深度逆向强化学习的一些前沿方向进行了综述，包括基于最大边际法的深度逆向强化学习、基于深度Q网络的深度逆向强化学习和基于最大熵模型的深度逆向强化学习和示例轨迹非专家情况下的逆向强化学习方法等。最后总结了深度逆向强化学习在算法、理论和应用方面存在的问题和发展方向。

关键词: 深度学习, 强化学习, 深度逆向强化学习

Abstract: Deep inverse reinforcement learning is a new research hotspot in the field of machine learning. It aims at recovering the reward function of deep reinforcement learning by the experts’ example trajectories. This paper systematically introduces three kinds of classic deep reinforcement learning methods. Then inverse reinforcement learning algorithms including apprenticeship learning, max margin plan, structured classification and probability models are described; then, some frontier researches of deep inverse reinforcement learning are reviewed, including the deep max margin plan inverse reinforcement learning, deep inverse reinforcement learning based on DQN and deep maximum entropy inverse reinforcement learning and recovering reward functions from non-expert trajectories etc. Finally, the existing issues and development direction are summarized.

Key words: deep learning, reinforcement learning, deep inverse reinforcement learning

陈希亮，曹雷，何明，李晨溪，徐志雄. 深度逆向强化学习研究综述[J]. 计算机工程与应用, 2018, 54(5): 24-35.

CHEN Xiliang, CAO Lei, HE Ming, LI Chenxi, XU Zhixiong. Overview of deep inverse reinforcement learning[J]. Computer Engineering and Applications, 2018, 54(5): 24-35.

[1]	武文杰，宋文爱，高雪梅，杨吉江，王青，黄丽萍，雷毅. 基于X线的成人OSA计算机辅助诊断综述[J]. 计算机工程与应用, 2021, 57(9): 1-8.
[2]	冉蓉，徐兴华，邱少华，崔小鹏，欧阳斌. 基于深度卷积神经网络的裂纹检测方法综述[J]. 计算机工程与应用, 2021, 57(9): 23-35.
[3]	李晓筱，胡晓光，王梓强，杜卓群. 基于深度学习的实例分割研究进展[J]. 计算机工程与应用, 2021, 57(9): 60-67.
[4]	黄冬宜，杨兵，吴子豪，匡佳一，颜泽明. 用于全市蜂窝流量预测的时空全连接卷积网络[J]. 计算机工程与应用, 2021, 57(9): 168-175.
[5]	周伦钢，孙怡峰，王坤，吴疆，黄维贵，李炳龙. 目标多种多值属性的端端快速识别网络[J]. 计算机工程与应用, 2021, 57(9): 182-190.
[6]	张成，戴俊峰，熊闻心. 融合LeNet-5改进的扫描文档手写日期识别[J]. 计算机工程与应用, 2021, 57(9): 207-211.
[7]	曾春艳，严康，王志锋，余琰，纪纯妹. 深度学习模型可解释性研究综述[J]. 计算机工程与应用, 2021, 57(8): 1-9.
[8]	许德刚，王露，李凡. 深度学习的典型目标检测算法研究综述[J]. 计算机工程与应用, 2021, 57(8): 10-25.
[9]	蒋斌，钟瑞，张秋闻，张焕龙. 采用深度学习方法的非正面表情识别综述[J]. 计算机工程与应用, 2021, 57(8): 48-61.
[10]	张鑫，张席. 优先状态估计的双深度Q网络[J]. 计算机工程与应用, 2021, 57(8): 78-83.
[11]	赵圆丽，梁志剑. 基于异核卷积双注意机制的立场检测研究[J]. 计算机工程与应用, 2021, 57(8): 119-125.
[12]	李明山，韩清鹏，张天宇，王道累. 改进SSD的安全帽检测方法[J]. 计算机工程与应用, 2021, 57(8): 192-197.
[13]	刘迪，贾金露，赵玉卿，钱育蓉. 基于深度学习的图像去噪方法研究综述[J]. 计算机工程与应用, 2021, 57(7): 1-13.
[14]	杨培伟，周余红，邢岗，田智强，许夏瑜. 卷积神经网络在生物医学图像上的应用进展[J]. 计算机工程与应用, 2021, 57(7): 44-58.
[15]	唐国智，李顶根. 深度学习及时空约束的行人跟踪算法研究[J]. 计算机工程与应用, 2021, 57(7): 121-129.

深度逆向强化学习研究综述

Overview of deep inverse reinforcement learning

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics