《强化学习：原理与Python实现》 —1.4　强化学习的分类-伙伴云

《强化学习：原理与Python实现》 —1.4　强化学习的分类

网友投稿 681 2022-05-28

1.4　强化学习的分类

强化学习的任务和算法多种多样，本节介绍一些常见的分类（见图1-6）。

图1-6　强化学习的分类

1.4.1　按任务分类

根据强化学习的任务和环境，可以将强化学习任务作以下分类。

单智能体任务（single agent task）和多智能体任务（multi-agent task）：顾名思义，根据系统中的智能体数量，可以将任务划分为单智能体任务和多智能体任务。单智能体任务中只有一个决策者，它能得到所有可以观察到的观测，并能感知全局的奖励值；多智能体任务中有多个决策者，它们只能知道自己的观测，感受到环境给它的奖励。当然，在有需要的情况下，多个智能体间可以交换信息。在多智能体任务中，不同智能体奖励函数的不同会导致它们有不同的学习目标（甚至是互相对抗的）。在本书没有特别说明的情况下，一般都是指单智能体任务。

《强化学习：原理与Python实现》 —1.4　强化学习的分类

回合制任务（episodic task）和连续性任务（sequential task）：对于回合制任务，可以有明确的开始状态和结束状态。例如在下围棋的时候，刚开始棋盘空空如也，最后棋盘都摆满了，一局棋就可以看作是一个回合。下一个回合开始时，一切重新开始。也有一些问题没有明确的开始和结束，比如机房的资源调度。机房从启用起就要不间断地处理各种信息，没有明确的结束又重新开始的时间点。

离散时间环境（discrete time environment）和连续时间环境（continuous time environment）：如果智能体和环境的交互是分步进行的，那么就是离散时间环境。如果智能体和环境的交互是在连续的时间中进行的，那么就是连续时间环境。

离散动作空间（discrete action space）和连续动作空间（continuous action space）：这是根据决策者可以做出的动作数量来划分的。如果决策得到的动作数量是有限的，则为离散动作空间，否则为连续动作空间。例如，走迷宫机器人如果只有东南西北这4种移动方式，则其为离散动作空间；如果机器人向360°中的任意角度都可以移动，则为连续动作空间。

确定性环境任务（deterministic environment）和非确定性环境（stochastic environ-ment）：按照环境是否具有随机性，可以将强化学习的环境分为确定性环境和非确定性环境。例如，对于机器人走固定的某个迷宫的问题，只要机器人确定了移动方案，那么结果就总是一成不变的。这样的环境就是确定性的。但是，如果迷宫会时刻随机变化，那么机器人面对的环境就是非确定性的。

完全可观测环境（fully observable environment）和非完全可观测环境（partially observable environment）：如果智能体可以观测到环境的全部知识，则环境是完全可观测的；如果智能体只能观测到环境的部分知识，则环境是非完全可观测的。例如，围棋问题就可以看作是一个完全可观测的环境，因为我们可以看到棋盘的所有内容，并且假设对手总是用最优方法执行；扑克则不是完全可观测的，因为我们不知道对手手里有哪些牌。

机器人 Python

量子通信的一些相关原理（量子通信是利用）

681 2022-05-28

《强化学习：原理与Python实现》 —1.4　强化学习的分类

量子通信的一些相关原理（量子通信是利用）

视频聊天的原理是什么呢（视频的基本原理）

探索CPU的调度原理（CPU的调度）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

定制家居数字化管理模式：提升品质、智能化和个性化的未

友情链接

《强化学习：原理与Python实现 》 —1.4 强化学习的分类

推荐文章

最近发表

热评文章

友情链接

《强化学习：原理与Python实现》 —1.4　强化学习的分类