1\policy Gradient(Review)
三个组件: Actor\Enviroment\Reward
Enviromwnt 和 Reward 开始之前就已经存在, 能调整的就是 Actor 的策略, 如何是 Actor 的策略可以得到最大的 Reward.
2\Policy of Actor
policy:π, 是带有参数的 network
input: 机器可以理解的数据, 矢量或者矩阵
output: 动作的选项, 有几个就是有几个 neuron.network 给这几个动作权值. 权值不同, 采取的 policy 就不同.
流程: Actor--> 环境 ---> 判断结果采取 action, 采取 Action 之后会得到 reward
来源: http://www.bubuko.com/infodetail-3086916.html