高明! OpenAI 提出 HER 算法, AI 系统学会从错误中学习

失败是成功之母: HER 有自我审视能力

最近几个月, OpenAI 的研究人员集中精力于构建具有更强的学习能力的人工智能得益于他们的增强学习系统 OpenAI baselines, 机器学习算法可以进行自主学习目前, 这个新的算法保证人工智能可以像人类一样从自己的错误中汲取教训

这个进步源于 OpenAI 的研究人员在近期公布的名为后见之明经验复现 (Hindsight Experience Reply, HER) 的开源算法正如名字所示, HER 帮助人工智能系统在完成一项任务后, 具有自我审视的能力 OpenAI 的博客中提到, 人工智能认为失败乃成功之母

以下是视频介绍:

研究人员写到: 构建 HER 的关键在于利用人类的直觉: 在实现某个任务时, 虽然我们没有成功, 但是在这个过程中我们学到一些不一样的东西, 既然如此, 为何不能将我们最终学到的知识作为我们最初的目标呢?

简而言之, 这意味着每一次失败的尝试都是为了实现一个意想不到的虚拟目标, 而非既定目标

回想一下你学骑单车的经历, 在最开始的几次尝试中, 你无法掌握平衡但是这些经验告诉了你怎么骑车是不正确的, 怎么做不能保持平衡就像在人类的学习过程中, 每一次的失败让我们距离成功更进一步

奖励每一次失败, 并且失败也不沮丧

通过使用 HER,OpenAI 希望他们的人工智能系统可以利用上述的方法来学习与此同时, 这种算法也被作为增强学习模型中的奖励机制的替代算法为了训练人工智能, 使其具有独立的学习能力, 它需要包含一个奖励机制: 如果人工智能算法达到了预期目标, 就可以得到一个小奖励, 就像奖励给小孩子一块奶油饼干一样, 否则就什么都得不到另外一个系统根据人工智能距离预期目标的距离来给出奖励

但是这两种算法并不是完美的第一个算法会阻碍学习, 因为一个人工智能算法在训练过程中要么得到奖励, 要么没得到另一方面, 根据 IEEE Spectrum 报道的内容显示, 第二系统在实现时, 需要衡量与目标的距离并给出奖励, 这个过程是很需要技巧的如果把每一个任务都当作是后见之明的目标, 即使人工智能系统没有完成指定的任务, HER 也会提供一个奖励这样帮助人工智能更快更好地学习

OpenAI 在他的的博客中提到: 通过进行这种奖励机制的替换, 强化学习算法在实现某些目标后会获得一个学习信号, 即使这个学习任务不是它最初希望实现的如果重复这个过程, 系统最终可以实现任意的目标, 包括最初的既定目标

这种方法并不意味着使用 HER 方法可以完全简化人工智能系统学习某个任务的过程研究者表示: 在机器人上使用 HER 进行学习仍然很难实现, 因为这个过程需要大量的数据

无论如何, 正如 OpenAI 的模型所显示的, HER 有助于鼓励人工智能系统像人类一样从错误中学习, 两者的主要区别在于人工智能在面对失败的时候不会像一些脆弱的人类那样伤心沮丧

来源: https://yq.aliyun.com/articles/509463

与本文相关文章

暂无,快来抢沙发吧！