强化学习原理与Python实现 》 —1.4 强化学习的分类

网友投稿 650 2022-05-28

1.4 强化学习的分类

强化学习的任务和算法多种多样,本节介绍一些常见的分类(见图1-6)。

图1-6 强化学习的分类

《强化学习:原理与Python实现 》 —1.4 强化学习的分类

1.4.1 按任务分类

根据强化学习的任务和环境,可以将强化学习任务作以下分类。

单智能体任务(single agent task)和多智能体任务(multi-agent task):顾名思义,根据系统中的智能体数量,可以将任务划分为单智能体任务和多智能体任务。单智能体任务中只有一个决策者,它能得到所有可以观察到的观测,并能感知全局的奖励值;多智能体任务中有多个决策者,它们只能知道自己的观测,感受到环境给它的奖励。当然,在有需要的情况下,多个智能体间可以交换信息。在多智能体任务中,不同智能体奖励函数的不同会导致它们有不同的学习目标(甚至是互相对抗的)。在本书没有特别说明的情况下,一般都是指单智能体任务。

回合制任务(episodic task)和连续性任务(sequential task):对于回合制任务,可以有明确的开始状态和结束状态。例如在下围棋的时候,刚开始棋盘空空如也,最后棋盘都摆满了,一局棋就可以看作是一个回合。下一个回合开始时,一切重新开始。也有一些问题没有明确的开始和结束,比如机房的资源调度。机房从启用起就要不间断地处理各种信息,没有明确的结束又重新开始的时间点。

离散时间环境(discrete time environment)和连续时间环境(continuous time environment):如果智能体和环境的交互是分步进行的,那么就是离散时间环境。如果智能体和环境的交互是在连续的时间中进行的,那么就是连续时间环境。

离散动作空间(discrete action space)和连续动作空间(continuous action space):这是根据决策者可以做出的动作数量来划分的。如果决策得到的动作数量是有限的,则为离散动作空间,否则为连续动作空间。例如,走迷宫机器人如果只有东南西北这4种移动方式,则其为离散动作空间;如果机器人向360°中的任意角度都可以移动,则为连续动作空间。

确定性环境任务(deterministic environment)和非确定性环境(stochastic environ-ment):按照环境是否具有随机性,可以将强化学习的环境分为确定性环境和非确定性环境。例如,对于机器人走固定的某个迷宫的问题,只要机器人确定了移动方案,那么结果就总是一成不变的。这样的环境就是确定性的。但是,如果迷宫会时刻随机变化,那么机器人面对的环境就是非确定性的。

完全可观测环境(fully observable environment)和非完全可观测环境(partially observable environment):如果智能体可以观测到环境的全部知识,则环境是完全可观测的;如果智能体只能观测到环境的部分知识,则环境是非完全可观测的。例如,围棋问题就可以看作是一个完全可观测的环境,因为我们可以看到棋盘的所有内容,并且假设对手总是用最优方法执行;扑克则不是完全可观测的,因为我们不知道对手手里有哪些牌。

机器人 Python

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:《Spark Streaming实时流式大数据处理实战》 ——3.6 RDD持久化(Cachinng/Persistence
下一篇:Oracle SQL调优系列之sql共享池
相关文章