【AI<a target="_blank" href="https://www.huoban.com/news/tags-2910.html"style="font-weight:bold;">理论</a>】<a target="_blank" href="https://www.huoban.com/news/tags-4266.html"style="font-weight:bold;">台湾大学</a>李宏毅深度强化学习笔记(49PPT)-伙伴云

【AI理论】台湾大学李宏毅深度强化学习笔记(49PPT)

网友投稿 898 2025-04-01

李宏毅老师通过下面的地球跟机器人比喻RL（Reinforcement Learning）过程是怎么回事。

地球是环境(environment)，代理(agent)用感测器去接收外接讯息，就像无人车在路上有六种以上装置感知外接讯息。

【AI理论】台湾大学李宏毅深度强化学习笔记(49PPT)

外边感知到了一杯水，它(agent)感知到讯息接着采取行动，它把水打翻了。因他的改变而外界有所改变，一摊水洒在地上。

接着外界（地球）给她了一个回馈：你刚刚的动作是不好的（Don't do that），所以机器人得到一个负面回馈。

接着，机器人感测到地上有一滩水后，便采取行动——把地上水擦净，改变了外界的状态。

接着地球给了个回馈：干得好兄弟！这是一个正面的奖励，接着这个反馈机器人也接收起来了：我这个动作是好的。

这里比喻机器的学习过程就是找到一个函数，函数的输入是外界（观察），而机器学习得目标就是要把这个函数（奖励）最大化。

这边举例阿法狗的学习过程。首先观测棋局（左），阿法狗下了一手。外部环境接收到了讯息，反馈给阿法狗。

人类下了第一手，阿法狗观测棋盘，然后不断循环刚刚的步骤。整个过程奖励是0，直到棋局结束，才会产生1或0的奖励。

假设是监督式方法让机器去学习，就会变成你教授5-5后，第二手教机器下3-3，一步一步的带下法。

但强化学习不一样，是到棋局结束才有奖励。

阿法狗的算法则是，监督式先学习许多的棋谱，然后才用强化学习去探索更多棋谱跟走法。

我们用语音机器人举例。一开始的监督则是从你一句我一句训练，然后根据动作奖励值，机器的目标就是要最大化期望值。

如果像阿法狗一样，让两个机器人训练呢？那机器人就会不断的对话出很多的句子。

产生的句子很多，也不可能一个一个去看完，那就要采用监督式学习了。你可以制定一个规则，假如你希望一个机器人学习骂脏话，那就让输入的句子奖励都能得到正值，反之如果不希望，则加入规则，骂脏话的时候变的反馈负分。

如果把语音机器人用监督和强化学习来比喻，非监督方式就是一句一句地教，强化学习就是让机器自己去对话，直到对方挂电话结束语音聊天。

以下是提供的两个RL环境，有空可以上去玩玩试试。接下来的内容大部分会以机器人玩游戏为主题做延伸。

下面是一个用RL玩游戏的例子，左上方是已获得分数，中间是还没打完的怪，下方则是你可操作的动作，包括向左移动、向右移动以及开火。

整个流程你可以这样了解如何互通。

首先机器看到最左边的画面（state s1），接着采取行动（action a1）向右走一步，得到回馈reward（r1 = 0），然后再接收状态资讯（state s2），接着再选择开火（action a2），然后环境给予他的回馈奖励（r2 = 5），s1→a1→r1→s2→a2→r2。

直到游戏结束，整个过程会得一个累积的奖励，游戏会以整个情节的奖励为目标，并按照目标最大化原则调整行为。

目前强化学习有两个需要关注的特性。

首先是关于学习，有着奖励延迟的特性，你的机器人或许会知道开火跟得分有关系，但不能直接了解得分跟往右移动有什么关系，这样机器最后只会不断地开火。

再举个围棋的例子，在与环境对弈的过程，并不是每步都有明显的回馈说这步下得很好，有时早期的牺牲些区块，诱敌等战术都能让你在后面获得更好的期望利益，学习的对象是一连串的行为（轨迹），机器才能了解，有些没有及时奖励值也是很重要，目标是最大化整个过程的奖励。

另一个特性是，机器不是一开始便拥有标注好的资料，机器要跟环境持续做互动，改变环境获得反馈，玩许多次才会更新算法，过程整个这样持续。

强化学习模型主要有两个，第一个是模型的基础上。

以围棋举例：你下一步后，机器便可以预想后面所有可能的棋步，然后推出胜率最大的下一步，但这是基于对规则与环境的充分理解，才有可能做到。

另外一个则是无模型，你并不是对环境很有着充分理解，基于这个产生两个方向，基于策略的和基于价值的，以及混杂的Actor+Critic。阿法狗可以参考，它是兼这三个类型使用。

接下来就开始介绍基于政策途径，如何得到一个好的Actor。

这边分三个部分介绍，RL导入NN(Neural Network)，如何定义好的函式及如何找出最好的。

左下角可以看到整个游戏画面，进入NN会输出三个维度的结果，分别是三个动作的值。

其实过往RL就有些固定算法，例如Q-表，现在导入NN的原因是，原本的RL输入的内容必须比较固化，如果针对没看过的例子性能会较差，但NN优点就在于泛化能力好，就算画面没看到但仍会找到个看到且相似的画面，具有泛化特性。

有了使用NN设计Actor的概念，接下来我们要来定义什么是好的函式。

这是过去我们知道的分类问题：手写数字辨识经过神经网路，给定一个值，对照标签去评估损失。

函式π（Actor）会有一组参数θ，接着会先让Actor玩第一回游戏，整个过程（轨迹）结束会得到一个总奖励R.

对于相同的Actor来说，每次环境回馈的R并不一定相同，以及RL算法某些时刻会采取随机的方式选择策略，这是为了满足探索新的可能的需求。因为这些原因，我们会求

附件： RL (v4).pdf 2.4M 下载次数：0次

EI 人工智能 AI

跨越DDD从理论到工程落地的鸿沟">跨越DDD从理论到工程落地的鸿沟

898 2025-04-01

理论】浅谈Anchor-Free based目标检测（一）">【AI理论】浅谈Anchor-Free based目标检测（一）

898 2025-04-01

理论】深度解读华为云一站式AI 开发平台 ModelArts 技术架构">【AI理论】深度解读华为云一站式AI 开发平台 ModelArts 技术架构

898 2025-04-01

【AI理论】台湾大学李宏毅深度强化学习笔记(49PPT)

跨越DDD从理论到工程落地的鸿沟">跨越DDD从理论到工程落地的鸿沟

理论】浅谈Anchor-Free based目标检测（一）">【AI理论】浅谈Anchor-Free based目标检测（一）

理论】深度解读华为云一站式AI 开发平台 ModelArts 技术架构">【AI理论】深度解读华为云一站式AI 开发平台 ModelArts 技术架构

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

进销存库存管理盘点">简单进销存库存管理盘点

友情链接

【AI理论】台湾大学李宏毅深度强化学习笔记(49PPT)

微信扫一扫：分享

跨越DDD从理论到工程落地的鸿沟">跨越DDD从理论到工程落地的鸿沟

理论】浅谈Anchor-Free based目标检测（一）">【AI理论】浅谈Anchor-Free based目标检测（一）

理论】深度解读华为云一站式AI 开发平台 ModelArts 技术架构">【AI理论】深度解读华为云一站式AI 开发平台 ModelArts 技术架构

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

进销存库存管理盘点">简单进销存库存管理盘点

友情链接