[强化学习] 强化学习的一些基础理念 [一]

Reinforcement Learning 的关系

Reward
Agent
environment
Actions
Observations

RL 的应用领域

Reinforcement Learning 的关系

强化学习的关系图, 如下:

一共有五个核心概念:

两个实体: Agent,Environment

三个交互的联络通道: Actions,Reward,Observations

Reward

Raward 是一个 scalar value 可以在环境中定期得获得. 为了让 agent 变得更可靠, 让它们的行为表现更好, 因此, 设计一个 Reward 会直接影响任务的成功与否. 同时根据反馈, 重新设定奖励. 让它们更好的服务于环境, 并对环境做出指导优化, 为特定的环境提供较优的解决方案.[1]

总而言之, 奖励的目的是为了让 agent 获得成功, 并且让他的行为按照某种算法进行强化(reinforcement). 可以说 reward 就是 RL 的核心.

让大家的直观感受, 举例如下:

股票交易, 买卖股票的收益可以看作是 Reward

围棋比赛, 获得比赛胜利或者输掉比赛, 可以看作是 Reward

电脑游戏, 玩 dota2 等电子竞技, 杀了多少敌人亦或者赢了比赛, 可以看作是 Reward

Agent

Agent 是用于和 environment 交互的实体, 它可以是人亦或者某个事物(电脑, 某个机器等). 如何交互? 发出一个具体的指令行动, 对当前的环境进行观察, 获取一个确定的奖励值等.

举例如下:

股票交易, 一个交易者或者电子交易系统做出买卖股票的决定

围棋比赛, 参赛的人员或者 AI 电脑

电脑游戏, 玩游戏的人或者 AI 电脑

environment

可以说是 Agent 以外的世界. 就像人类一样, 我们所经历的这个世界. 而 Agent 和他自己世界交互的行为只有: 执行动作, 观察当前的情况, 获得奖励.

Actions

Action 就是 Agent 在自己的 Environment 中做出的具体行为. 例如: 学生在学校里面根据老师的要求, 做家庭作业一般.

我们可以把行为分成两种类型: discrete 和 continuous(其实就是概率中的离散型和连续型).

discrete 就是相互独立的有限集合.

continuous 一个动作之下它有着不同的程度. 例如: 你开车打方向盘和踩油门的时候, 这个有程度之分. 踩油门踩得重点和轻点. 开车的速度是不一样的.

Observations

Observations 对于 agent 来说也是非常重要的. 就像人类一样, 它会观察它自己的这个世界. 那如何判别呢? 根据获得的奖励. 例如: 你受到了工资的短信, 发现涨工资了, 你就会露出喜悦的反馈. 因此, 如果奖励是消极的, 没有用的, 让人迷惑的. 那么对于 agent 的训练就非常的糟糕. 最后, 也达不到你要的成功行为.

对于 Observations 的直观感受:

股票交易, 整个交易市场, 可以影响它的东西就很多了. 例如: 国家的政策, 当前全球的经济情况, 包括最近我们知道的新冠肺炎疫情也会直接股票的收益. 还有其他的炒股人员, 他们的心态. 现在最新的市场心理学, 也会直接影响股票市场等. 所以, 如果 Observations 只是对于股票价格做分析的话, 那么它们得出的行为效果也不大.

围棋比赛, 它的整个环境是棋盘和他的对手, 如果更广义的去分析的话: 还有他们的围棋技术水平, 他们的比赛心态, 他们脑子里面的逻辑思绪等. 而 Observations 只能看到它目前的位置.

电脑游戏, 它的环境是一个电脑目前的状态, 玩游戏的场景. 如果是网络游戏, 还有和其他电脑交互的操作. 而 Observations 就是一些屏幕的像素点 (pixels) 和声音.

RL 的应用领域

[1]A. Y. Ng, D. Harada, and S. Russell. Policy invariance under reward transformations: Theory and

application to reward shaping. In International Conference on Machine Learning, volume 99,
pages 278-287, 1999.

来源: https://www.cnblogs.com/zhangshengdong/p/12685059.html

与本文相关文章

暂无,快来抢沙发吧！