导读:[环球网科技综合报道] 10 月 27 日消息, 据外媒报道, 约翰斯霍普金斯大学博士生安德鲁洪特 (Andrew Hundt) 近日发布一篇新论文, 指出应通过正强化法训练机器人学习新技能. 这篇论文的核心思想是, 在训练机器人的过程中, 应采用正强化法, 即相比于在它做错时...
[环球网科技综合报道] 10 月 27 日消息, 据外媒报道, 约翰斯霍普金斯大学博士生安德鲁洪特 (Andrew Hundt) 近日发布一篇新论文, 指出应通过正强化法训练机器人 http://www.zhanhuigang.com/zhuanti-10000036.html 学习新技能.
这篇论文的核心思想是, 在训练机器人的过程中, 应采用正强化法, 即相比于在它做错时进行惩罚, 更应在它做对时进行激励. 而对于机器人来说, 这种激励机制是以评分系统的形式呈现的, 类似玩游戏 http://www.zhanhuigang.com/zhuanti-10000243.html 一样, 根据执行任务的情况获得积分.
安德鲁表示, 这种方法能够大大缩短训练机器人执行任务的时间."机器人希望能得到更高的分数, 所以它们很快就可以完成相关任务. 过去机器人需要一个月的练习才能达到 100% 的准确性, 现在只用两天就能做到."
不过他也指出, 目前机器人执行的这些任务仍然是比较初级的, 比如堆积木. 但在未来, 机器人有望通过正强化法完成更复杂和有意义的任务.
来源: http://www.ailab.cn/Intelligent_Robots/20201027105882.html