只需 1/500 数据便可掌握 Atari 游戏! 清华叉院助理教授提出小数据 RL 模型, 引爆 AI 社区

近日, 一项研究在学术界引起了广泛的关注和热议. 有消息称, Deep Mind 和 Google 已经在内部关门开会讨论了.

本文转自雷锋网, 如需转载请至雷锋网官网申请授权.

近日, 一项研究在学术界引起了广泛的关注和热议. 有消息称, Deep Mind 和 Google 已经在内部关门开会讨论了. 粉丝众多的科技向 YouTube 博主 Yannic kicher 甚至专门做了半个小时的视频来讲解这篇论文. 学者们更是用 "completely game- changing","major development in RL","this is impressive" 来形它. 其团队老师本人也在推特上表示: 在使用相同数据的情况下, 这是 RL 智能体第一次直接从像素中获得了超越人类的性能! 这会让通用强化学习更接近真实世界的场景, 比如机器人的采样效率会是关注重点.

现在, 就让我们隆重的介绍下本文的主角 -- EfficientZero.

EfficientZero 算法是在清华大学交叉信息研究院高阳团队的新研究《使用有限数据掌控 Atari 游戏》( Mastering Atari Games with Limited Data)中提出的. EfficientZero 的性能接近 DQN(Deep Q-Learning)在 2 亿帧时的性能, 但消耗的数据却减少了 500 倍! 它能够在贴近现实复杂情况的 Atari(雅达利)游戏中, 从零训练并只需两个小时, 就可达到同等条件下人类平均水平的 190.4%, 或 116.0% 的中值性能.

论文链接: https://arxiv.org/abs/2111.00210#

样本效率一直是强化学习中最 "令人头疼" 的挑战, 重要的方法需要数百万 (甚至数十亿) 环境步骤来训练. 一种从 MuZero 模型改进而来的高效视觉 RL 算法 -- EfficientZero, 该模型从零开始训练, 最终在 Atari 中仅用两个小时的训练数据上就超过了经过相同条件下的的人类平均水平.

MuZero 是通过将基于树的搜索与经过学习的模型相结合, 可以在一系列具有挑战性和视觉复杂的领域中, 无需了解基本的动态变化即可实现出色性能. AI 科技评论在以往的文章中对 MuZero 有过报道: DeepMind 又出大招! 新算法 MuZero 登顶 Nature,AI 离人类规划又近了一步. 那为什么会选择 Atari 游戏呢? Atari 游戏场景繁多, 规则各异, 一定程度上贴合现实复杂环境, 因此长期被当作验证强化学习算法在多因素环境下的性能测试标准. EfficientZero 的低样本复杂度和高性能可以使强化学习更接近现实世界的适用性.

如图所示, EfficientZero 在人类平均标准得分中位数上分别比之前的 SoTA 性能出色 170% 和 180%. 是第一个在 Atari 100k 基准上优于人类平均性能的算法.

强化学习在挑战性的问题上取得了巨大的成功. 如 2015 年 DeepMind 研发的 DQN 网络 , 击败了中国围棋世界冠军柯洁的 AlphaGo, 和会在 Dota2 中打团战的 OpenAI Five 等等. 但这些都是站在巨大数据量的 "肩膀上" 训练出来的策略. 像 AlphaZero 从国际象棋小白到顶尖高手需要完成 2100 万场比赛, 一个职业棋手每天大约只能完成 5 场比赛, 这意味着人类棋手要 11500 年才能拥有相同的经验值.

在模拟和游戏中应用 RL 算法, 样本复杂性不成阻碍. 当涉及到现实生活中的问题时, 例如机器人操作, 医疗保健和广告推荐系统, 在保持低样本复杂性的同时实现高性能是能否可行的至关钥匙.

过去几年, 我们在样本高效强化学习上已有许多成绩. 来自真实环境的数据和来自模型的 "想象数据" 都可以训练策略. 但大多数成功都是在基于状态的环境中. 比如在基于图像的环境中, 鱼和熊掌不可兼的情况比比皆是, MuZero 和 Dreamer V2 展示了超越人类的表现, 但样本效率不高; SimPLe 等其他方法非常有效, 但性能较差. 最近, 在数据高效机制中, 中数据增强和自监督方法应用无模型方法取得一定成功. 然而, 却依然达不到人类预期的水准.

为了提高样本效率并保持优越的性能, 自监督环境模型, 减轻模型复合误差的机制和纠正非策略问题的方法这三点对基于模型的视觉 RL 智能体至关重要. EfficientZero 在 MuZero 的基础上, 对这三点进行了改进:"利用时序预测一致性 (temporal contrastive consistency), 减少预测回报的不确定性 (aleatory uncertainty) 以及纠正离线策略价值的偏移 (off-policy correction)."

在对 DeepMind Control (DMControl)套件的模拟机器人环境进行的实验中, EfficientZero 实现了最先进的性能, 优于直接从真实状态中学习的模型 state SAC, 这进一步验证了 EfficientZero 的有效性. 被有限数据 "扼住" 深度强化学习算法 "喉咙" 的时代也许不会再有了.

高阳: 博士, 清华大学交叉信息研究院助理教授. 博士毕业于美国加州大学伯克利分校, 本科毕业于清华大学计算机系. 主要研究计算机视觉与机器人学.

来源: http://news.51cto.com/art/202111/689365.htm

与本文相关文章

暂无,快来抢沙发吧！