《<a target="_blank" href="https://www.huoban.com/news/tags-1028.html"style="font-weight:bold;">强化学习</a>：<a target="_blank" href="https://www.huoban.com/news/tags-729.html"style="font-weight:bold;">原理</a>与Python实现》

网友投稿 879 2025-03-31

《强化学习：原理与Python实现》 —1.2　强化学习的应用

1.2　强化学习的应用

基于强化学习的人工智能已经有了许多成功的应用。本节将介绍强化学习的一些成功案例，让你更直观地理解强化学习，感受强化学习的强大。

电动游戏：电动游戏，主要指玩家需要根据屏幕画面的内容进行操作的游戏，包括主机游戏吃豆人（PacMan，见图1-2）、PC游戏星际争霸（StarCraft）、手机游戏Flappy Bird等。很多游戏需要得到尽可能高的分数，或是要在多方对抗中获得胜利。同时，对于这些游戏，很难获得在每一步应该如何操作的标准答案。从这个角度看，这些游戏的游戏AI需要使用强化学习。基于强化学习，研发人员已经开发出了许多强大的游戏AI，能够超越人类能够得到的最佳结果。例如，在主机Atari 2600的数十个经典游戏中，基于强化学习的游戏AI已经在将近一半的游戏中超过人类的历史最佳结果。

图1-2　街机游戏吃豆人（本图片改编自https://en.wikipedia.org/wiki/Pac-Man#Gameplay）

棋盘游戏：棋盘游戏是围棋（见图1-3）、黑白翻转棋、五子棋等桌上游戏的统称。通过强化学习可以实现各种棋盘运动的AI。棋盘AI有着明确的目标—提高胜率，但是每一步往往没有绝对正确的答案，这正是强化学习所针对的场景。Deepmind公司使用强化学习研发出围棋AI AlphaGo，于2016年3月战胜围棋顶尖选手李世石，于2017年5月战胜排名世界第一的围棋选手柯洁，引起了全社会的关注。截至目前，最强的棋盘游戏AI是DeepMind在2018年12月发表的AlphaZero，它可以在围棋、日本将棋、国际象棋等多个棋盘游戏上达到最高水平，并远远超出人类的最高水平。

图1-3　一局围棋棋谱（图中实心圆表示黑棋的棋子，空心圆表示白棋的棋子，圆里的数字记录棋子是在第几步被放在棋盘上，本图片改编自论文D. Silver, et al. Mastering the game of Go without human knowledge, Nature, 2017）

自动驾驶：自动驾驶问题通过控制方向盘、油门、刹车等设备完成各种运输目标（见图1-4）。自动驾驶问题既可以在虚拟环境中仿真（比如在电脑里仿真），也可能在现实世界中出现。有些任务往往有着明确的目标（比如从一个指定地点到达另外一个指定地点），但是每一个具体的动作却没有正确答案作为参考。这正是强化学习所针对的任务。基于强化学习的控制策略可以帮助开发自动驾驶的算法。

图1-4　自动驾驶（本图截取自仿真平台AirSimNH）

Python AI 5G游戏

服务器端API原理及示例讲解(接口开发)">PHP服务器端API原理及示例讲解(接口开发)

879 2025-03-31

[转载]AlphaGo背后的力量：蒙特卡洛树搜索入门指南

879 2025-03-31

实战：原理、进阶与性能调优》一前言+目录">《KVM实战：原理、进阶与性能调优》一前言+目录

879 2025-03-31

《强化学习：原理与Python实现》 —1.2　强化学习的应用

服务器端API原理及示例讲解(接口开发)">PHP服务器端API原理及示例讲解(接口开发)

[转载]AlphaGo背后的力量：蒙特卡洛树搜索入门指南

实战：原理、进阶与性能调优》一前言+目录">《KVM实战：原理、进阶与性能调优》一前言+目录

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

定制家居数字化管理模式：提升品质、智能化和个性化的未

友情链接

《强化学习：原理与Python实现 》 —1.2 强化学习的应用

微信扫一扫：分享

服务器端API原理及示例讲解(接口开发)">PHP服务器端API原理及示例讲解(接口开发)

实战：原理、进阶与性能调优》一前言+目录">《KVM实战：原理、进阶与性能调优》一前言+目录

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

友情链接

《强化学习：原理与Python实现》 —1.2　强化学习的应用