《强化学习：原理与Python实现》 —1.4.2　按算法分类-伙伴云

《强化学习：原理与Python实现》 —1.4.2　按算法分类

网友投稿 1211 2022-05-28

1.4.2　按算法分类

从算法角度，可以对强化学习算法作以下分类。

《强化学习：原理与Python实现》 —1.4.2　按算法分类

同策学习（on policy）和异策学习（off policy）：同策学习是边决策边学习，学习者同时也是决策者。异策学习则是通过之前的历史（可以是自己的历史也可以是别人的历史）进行学习，学习者和决策者不需要相同。在异策学习的过程中，学习者并不一定要知道当时的决策。例如，围棋AI可以边对弈边学习，这就算同策学习；围棋AI也可以通过阅读人类的对弈历史来学习，这就算异策学习。

有模型学习（model-based）和无模型学习（model free）：在学习的过程中，如果用到了环境的数学模型，则是有模型学习；如果没有用到环境的数学模型，则是无模型学习。对于有模型学习，可能在学习前环境的模型就已经明确，也可能环境的模型也是通过学习来获得。例如，对于某个围棋AI，它在下棋的时候可以在完全了解游戏规则的基础上虚拟出另外一个棋盘并在虚拟棋盘上试下，通过试下来学习。这就是有模型学习。与之相对，无模型学习不需要关于环境的信息，不需要搭建假的环境模型，所有经验都是通过与真实环境交互得到。

回合更新（Monte Carlo update）和时序差分更新（temporal difference update）：回合制更新是在回合结束后利用整个回合的信息进行更新学习；而时序差分更新不需要等回合结束，可以综合利用现有的信息和现有的估计进行更新学习。

基于价值（value based）和基于策略（policy based）：基于价值的强化学习定义了状态或动作的价值函数，来表示到达某种状态或执行某种动作后可以得到的回报。基于价值的强化学习倾向于选择价值最大的状态或动作；基于策略的强化学习算法不需要定义价值函数，它可以为动作分配概率分布，按照概率分布来执行动作。

深度强化学习（Deep Reinforcement Learning，DRL）算法和非深度强化学习算法。如果强化学习算法用到了深度学习，则这种强化学习可以称为深度强化学习算法。

值得一提的是，强化学习和深度学习是两个独立的概念。一个学习算法是不是强化学习和它是不是深度学习算法是相互独立的（见图1-7）。如果一个算法解决了强化学习的问题，这个算法就是强化学习的算法；如果一个算法用到了深度神经网络，这个算法就是深度学习算法。一个强化学习算法可以是深度学习算法，也可以不是深度学习算法；一个深度学习算法可以是强化学习算法，也可以不是强化学习算法。对于强化学习算法而言，在问题规模比较小时，能够获得精确解；当问题规模比较大时，常常使用近似的方法。深度学习则利用神经网络来近似复杂的输入/输出关系。对于规模比较大的强化学习问题，可以考虑利用深度学习来实现近似。如果一个算法既是强化学习算法，又是深度学习算法，则可以称它是深度强化学习算法。例如，很多电动游戏AI需要读取屏幕显示并据此做出决策。对屏幕数据的解读可以采用卷积神经网络这一深度学习算法。这时，这个AI就用到了深度强化学习算法。

Python 深度学习 AI

量子通信的一些相关原理（量子通信是利用）

1211 2022-05-28

《强化学习：原理与Python实现》 —1.4.2　按算法分类

量子通信的一些相关原理（量子通信是利用）

视频聊天的原理是什么呢（视频的基本原理）

探索CPU的调度原理（CPU的调度）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

家居定制平台是什么？

友情链接

《强化学习：原理与Python实现 》 —1.4.2 按算法分类

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接

《强化学习：原理与Python实现》 —1.4.2　按算法分类