AI 前线导读: 人工智能顶级会议 AAAI 2018 于今天 (2 月 2 日) 在美国路易斯安那州新奥尔良正式开幕然而, 在大会开始前, 最佳论文获奖信息就已经在网上传播开了, 加拿大阿尔伯塔大学的两名中国留学生斩获这一奖项 1 月 31 日, 最佳论文作者 Martin Müller 教授抢先在推特上公开了他们的这篇获奖论文, AI 前线将简要介绍这篇获奖论文的内容
去年的 AAAI 大会上华人学者的名字刷屏了整个接收论文名单, 但最佳论文奖和最佳学生论文奖均没有出现华人的名字这一次, 霸屏还在继续, 而最佳论文奖也终于再度被华人学者收入囊中根据 jeffhuang 统计的获奖论文清单(jeffhuang.com/best_paper_), 这应该是自 1996 年以来华人学者第五次获得 AAAI 最佳论文奖
AAAI 最佳论文奖获奖论文体现了技术贡献和阐述的最高标准这个奖通常是奖励给在计算机科学领域兼具广度和独特性的研究者, 这些研究通常构建了不同科系和学科之间的桥梁
Martin Müller 教授 Twitter 消息
AAAI 官方程序手册节选
本届获得 AAAI 最佳论文奖的是加拿大阿尔伯塔大学的 Martin Müller 教授与他的两位学生 Chenjun XiaoJincheng Mei 的论文: Memory-Augmented Monte Carlo Tree Search(记忆增强的蒙特卡洛树搜索)
AI 前线趣闻:
该论文的导师, 阿尔伯塔大学教授 Martin Müller 是计算机围棋顶级专家, 主要研究领域包括: 博弈树搜索和规划的蒙特卡洛方法大规模并行搜索和组合博弈论实际上, 2016 年揭开人工智能火热大戏序幕的 AlphaGo 的设计研发主导人物 David Silver 和黄士杰 (Aja Huang)(他们分别是发表于 Nature 的 AlphaGo 论文的一作和二作) 都曾师从于他甚至有知乎网友将 Martin Müller 教授称为王背后的男人 AlphaGo 背后的祖师爷
Chenjun Xiao 于 2014 年加入 Martin Müller 教授的研究小组, 攻读硕士学位, 2016 年开始攻读博士学位
Jincheng Mei 本科毕业于华南理工大学, 硕士毕业于上海交通大学, 于 2015 年进入加拿大阿尔伯塔大学攻读博士学位, 师从 Dale Schuurmans 教授
以下是 AI 前线对论文内容的简要编译:
摘要
这篇论文提出了记忆增强的蒙特卡洛树搜索算法(Memory-Augmented Monte Carlo Tree Search,M-MCTS), 为在线实时搜索提供了一个新的利用泛化性的方法 M-MTCS 的核心思想是为 MCTS 增加了一个记忆结构, 该结构的每一个入口都含有一个特殊状态信息记忆结构结合相似状态的估计产生一个近似的值估计作者发现, 基于记忆的值估计结果比温和条件下高概率的普通蒙特卡洛算法估计结果更好作者在围棋游戏中评测了 M-MCTS 的性能实验结果表明, 在相同模拟次数下, M-MCTS 优于原来的 MCTS
论文介绍
MCTS 的核心思想是根据快速蒙特卡洛模拟对状态的估计值构建搜索树给定当前棋面状态, 通过随机的自我博弈模拟上千场棋局, 直到游戏结束随后, 根据模拟结果的平均值估测状态值同时, 搜索树通过 bandit 算法对于探索 (exploration) 和利用 (exploitation) 进行权衡, 导引模拟的方向然而, 对于巨大的状态空间, 值估计的准确率不能得到有效保证, 因为在有限的搜索时间内, 平均值估计容易呈现较高方差这种不准确的估计会误导搜索树的构建方向, 从而严重影响算法的性能
近期提出了几个新的机器学习算法, 旨在解决 MCTS 的这一缺点例如, 使用深度神经网络来学习域知识, 并近似状态值函数它们与 MCTS 的结合为实践中提高搜索样本效率带来了启发式算法
机器学习方法的成功绝大部分可以归结于其强大的泛化能力, 例如相似状态共享信息广义的域知识通常由函数近似来表示, 例如深度神经网络, 通过专门的数据集或自我生成的模拟进行离线训练
目前已有大量的研究从离线学习中发现泛化能力, 相比之下很少有人关注在线实时搜索时如何利用算法泛化带来的好处这篇论文提出了记忆增强的 MCTS 算法, 为利用在线泛化提供了一个不一样的方法作者设计了一个记忆结构 (memory), 每一个入口包含某一个特定状态的信息, 作为构建在线值近似的基础论文从理论和实践(围棋游戏实验) 上证实了该基于记忆的框架对 MCTS 性能的提升
图 1:M-MCTS 算法解释
当叶子状态 s 被搜索到时, 特征表示ϕ(s) 随之产生, 随后用于搜索基于记忆的值近似
值近似用于更新 s 和所有的父节点, 这一过程由图中红色箭头表示
实验
作者在中国围棋游戏中对 M-MCTS 算法进行了测试
基准实验
算法实现基于开源围棋项目 Fuego, 但是增加了深度卷积神经网络 (DCNN) 来提升性能 DCNN 在状态节点刚被添加入搜索树时调用, 来初始化模拟数据算法以一种同步方式在 MCTS 中加入 DCNN, 即当 DCNN 返回估测结果时, 搜索会继续进行基准实验在 Fuego 中取得了 97% 的胜利率, 每一步进行 10000 次模拟
实验结果
算法主要有 3 个参数, 记忆结构中的近邻数量 M:{20,50,100}温度参数τ:{0.05,0.1,1}, 及每步模拟运行次数:{1000,5000,10000}作者在实验中测试了这 3 个参数对 M-MCTS 算法性能的影响
图 2(a)-(c)显示了不同 M 值的实验结果
当 M 和τ分别取 {50,0.1} 时, 算法得到了最好结果: 每步运行模拟次数为 10000, 与基准实验进行围棋游戏中取得了 70% 的胜利率, 每一次结果的标准差大约在 2.5%
在同等参数情况下, 作者对记忆结构的大小进行了实验记忆结构的大小取值为 {1000,5000,10000} 一般情况下, 记忆结构越大, 算法性能越好, 因为搜索中能包括更多的候选状态图 2(d)显示, 记忆结构大小为 10000 时算法取得最佳性能
作者也对比了在每走一步所需计算时间相同的情况下(每步 5 秒),M-MCTS 在与基准实验进行围棋游戏中取得了 61% 的胜利率
未来工作
作者计划未来探索以下两个方向:
1)是否可以通过将离线学习的近似值与所提出的在线基于记忆的框架结合, 得到更好的泛化效果
2)M-MCTS 中利用了为预测行为而设计的神经网络进行特征表示, 未来将探索如何将特征表示学习与 M-MCTS 整合, 成为端到端的算法
M-MCTS 更加详细的算法实现请参见论文原文(点击阅读原文可直接打开):
webdocs.cs.ualberta.ca/~mmueller/p
AAAI 官方资料:
aaai.org/Conferences
小彩蛋: 如果你平常有阅读论文的习惯, 并且愿意做一些论文编译整理的工作, 或者有国际顶会的论文解读稿件寻求发布, 欢迎关注 AI 前线(ai-front), 在后台留下联系方式, 我们将与你联系, 并进行更多交流!
来源: https://juejin.im/post/5a75cbbaf265da4e761fa272