先别说话
给自己几分钟的时间, 玩一下这个游戏, 看看是否能顺利通关几分钟就好, 别为难自己因为普通人通关平均需要 20 分钟
游戏地址: https://high-level-4.herokuapp.com/experiment
推荐在 PC 端打开, 手机端玩不了如果不在电脑前, 可以看看我们试玩的动图:
这是什么鬼? 简直有点变态级的难度
从某种程度上说, 你在体验 AI 打游戏的感觉
最近几年, 大家一方面赞叹 AI 自行学会了玩打砖块等雅达利游戏, 而且达到甚至超过了人类玩家的平均水平
另一方面大家也质疑说, 人类看一眼就能上手的游戏, AI 却需要学习非常久的时间为什么机器和人类之间的学习效率差这么多?
加州大学伯克利分校有一组科学家, 就正在研究这个问题
区别可能在于: 人类带着一大堆从现实世界中得来的先验知识 (prior knowledge) 进入游戏, 大大提高了决策效率
什么意思?
还是基于开头让大家试玩的小游戏, 让我们跟随伯克利的研究人员们, 一起来感受下
定量分析
来, 开始实验
先看看游戏原始的样子
即便你不玩游戏, 也能看出来, 玩家应该躲避粉色的怪物地刺路障, 然后通过跳跃和爬梯子, 拿到右上角的钥匙, 接着打开左上角的大门
如果你想试玩, 地址在: https://dry-anchorage-61733.herokuapp.com/experiment
实验表明, 人类很快就能上手这个游戏平均完成时间 1.8 分钟, 平均死亡次数 3.3, 游戏路径探索达 3011 种
好, 接下来加大难度
去掉语义
梯子的形状, 就是它的语义人类看到梯子的形状, 就能联想到可以攀爬语义的重要性几何? 实验方法很简单, 去掉游戏中各种物体的细节, 只用统一的色块来表现
整个游戏就变成下面的样子
在这种游戏中, 人类完成游戏的平均时间增加到 4.3 分钟, 死亡次数增加到 11.1 次, 游戏路径探索达 7205 种
试玩地址在此: https://boiling-retreat-38802.herokuapp.com/experiment
你有没有觉得其他玩家弱爆了? 其实你忽略了一点由于文章的表述结构, 你先玩了正常版的游戏, 但如果你并不知道游戏的原始设定, 就能感觉出来遮蔽语义信息的游戏有多难
因为在原始游戏中, 钥匙和大门都可见人类自然能想到先获取钥匙, 再去开门在遮蔽语义的版本中, 玩家无从获知这种信息
120 位参与者中, 只有 42 位在抵达大门 (蓝色方块) 之前, 先取得了钥匙 (橙色方块) 而且与原始游戏相比, 玩家获取钥匙后抵达大门的时间更长
这个结果表明, 在没有语义的情况下, 人类无法推断奖励结构, 从而显著增加了探索的时间
为了进一步量化语义的重要性, 接下来这个实验不是简单的遮蔽, 而是改变了语义
游戏中粉色的怪物和地刺路障, 替换成有正面含义的金币和冰淇淋; 而梯子钥匙和大门, 分别被替换成有负面含义的火焰地刺路障和粉色怪物
这样一来, 参与实验的玩家花了更长时间来过关平均耗时 6.1 分钟, 死亡次数 13.7 次, 游戏路径探索达 9400 种这个结果表明, 语义翻转比遮蔽更具迷惑性
混淆物体
虽然上述遮蔽之后, 游戏里的物体都没有传达语义, 但它们与背景截然不同人类很容易推断这些引人注意的物体是子目标, 展开比随机搜索更有效的行动
为了测试这一点, 小游戏的迷惑性进一步升级平台上每个空间位置, 都使用了不同的色块填充, 然而大多数都是毫无作用的色块代表实际物体的色块, 位置和之前相同当然, 如果你是第一次玩这个游戏, 这次绝对要懵逼一下了
游戏画面如图
试玩地址: https://high-level-1.herokuapp.com/experiment
实验结果: 人类玩家平均通关时间是原来的四倍, 达到 7.7 分钟; 死亡次数达到 20.2; 游戏路径探索达 12232 种找到钥匙与打开门之间的耗时进一步增加
抹平功能可视性
到目前为止的种种折腾, 已经说明推断出游戏的基本奖励结构, 并不是一件易事不过整个游戏仍然对人类玩家有利游戏画面中还是能很清楚的看到, 各个平台的位置, 以及平台之间的相互连接, 黑色背景出卖了这一切
怎么办?
抹平功能可视性的一种方法, 就是用随机纹理填充空白的区域这些纹理与用于渲染梯子和平台的纹理相似再强调一下, 这次实验中各种物体的语义清晰可见
试玩地址: https://fierce-sierra-47669.herokuapp.com/experiment
实验结果: 人类平均通关时间 4.7 分钟, 死亡次数 10.7, 游戏路径探索达 7031 种这个结果与遮蔽语义时相比, 差异不大可以认为, 可视性与语义同等重要
一旦人类玩家意识到, 可以站在或者攀爬特定的纹理, 就很容易通过相似性识别其他的平台和梯子看起来相同的事物, 人类会认为具有相同的性质
接下来继续提升难度
这次每个平台和梯子的纹理全都不同了人类再也无法用相似性展开推断
试玩地址: https://high-level-3.herokuapp.com/experiment
这一次, 人类平均通关时间 7.6 分钟, 死亡次数 14.8, 游戏路径探索达 11715 种结果表明, 视觉相似性是人类在游戏中第二类重要的知识
改变交互
以上, 都是与视觉相关的研究在这个游戏中, 玩家还得知道如何与不同的物体交互例如遇到粉色的怪物可以跳过去, 遇到梯子可以按上键往上爬但是, 深度强化学习控制的智能体 Agent 并没有这种先验知识, 必须一点点摸索如何与物体交互
为了测试这种先验知识的重要性, 一个新的游戏版本被创建了我们先不说到底哪里有了改动, 你可以自己试试看
试玩地址: https://calm-ocean-56541.herokuapp.com/experiment
如上面动图所示, 单纯按上键是没办法爬梯子的, 在按住上键的同时, 还得交替反复按下左键和右键
与原版游戏相比, 这个小改动将平均游戏时间延长到 3.6 分钟, 死亡次数 6, 游戏路径探索达 5942 次
终极挑战
最后, 综合上述种种, 就产生了开头提到了变态级难度的小游戏
人类完成这个小游戏的平均时间增加到 20 分钟, 死亡次数达 40, 各种游戏路径探索的次数提高了 9 倍
这个游戏实在是太难了, 玩家放弃的比例非常高
但这还不是最难的, 其实伯克利的研究人员还搞出一个更难的版本在那个版本里, 重力方向做了翻转, 按键的响应也做了随机的映射
即便是玩过无数次的研究人员, 也很难完成这个版本
而且, 他们也没有放出这个版本的试玩地址(如果哪位老师自己探索出来了, 希望留言给我们)
当然还有一个重力方向旋转 90° 的版本, 可以挑战一下
地址: https://tranquil-earth-53211.herokuapp.com/experiment
讨论
这篇论文的实验结果显示, 强化学习算法再强, 如果想像人类一样高效完成奖励稀疏的任务, 还要从人类的认知中学习很多东西关于物体的先验知识, 就在打游戏这个奖励稀疏的任务上帮了人类的大忙
不过, 有强大的先验也不一定总是好事, 有时候会限制探索范围, 以后的研究也应该注意在某些环境中, 对探索少加约束
另外, 人类对于游戏的先验知识其实远不止这篇论文所探讨的物体, 人们在打游戏时还会假设游戏有目标, 右键上键通常是往前走等等这些先验, 也都很值得探索
研究人员最后根据实验, 对先验知识的分类和重要性进行了排序如下图所示:
这项研究的论文 Investigating Human Priors for Playing Video Games 发表在 ICLR 2018 Workshop 上
论文一作 Rachit Dubey 是伯克利计算认知科学实验室的博士, 其他作者也都来自伯克利, 包括计算机系的博士生 Pulkit Agrawal 和 Deepak Pathak, 以及一作和三作的导师: 计算认知科学实验室主任 Tom Griffiths 和 Alexei Efros
来源: https://juejin.im/entry/5aa22f26518825556d0db1c6