李弘毅的强化学习

1\policy Gradient(Review)

三个组件: Actor\Enviroment\Reward

Enviromwnt 和 Reward 开始之前就已经存在, 能调整的就是 Actor 的策略, 如何是 Actor 的策略可以得到最大的 Reward.

2\Policy of Actor

policy:π, 是带有参数的 network

input: 机器可以理解的数据, 矢量或者矩阵

output: 动作的选项, 有几个就是有几个 neuron.network 给这几个动作权值. 权值不同, 采取的 policy 就不同.

流程: Actor--> 环境 ---> 判断结果采取 action, 采取 Action 之后会得到 reward

来源: http://www.bubuko.com/infodetail-3086916.html

暂无,快来抢沙发吧！