《Python大规模机器学习》— 2.2.5 关注实例排序

网友投稿 572 2025-04-04

2.2.5 关注实例排序

作为数据流主题的总结，必须警告读者：数据流传输时实际上包含了学习过程中的隐藏信息，因为你的学习是按实例顺序进行的。

事实上，在线学习器会根据所评估的每个实例优化其参数，在优化过程中，每个实例都会引导学习器朝某个方向前进。

如果有足够多的评估实例，则在全局过程中学习器应采取正确优化方向

。但是,如果学习器是由有偏差的观察数据训练的（例如，按时间排序或以某种有意义分组的观察数据），那么算法也将学习偏差。训练过程中可以设法不记住之前看见的实例，但不管怎样还是会引入某些偏差。如果正在学习时间序列（对时间流的响应常常是模型的一部分），这种偏差相当有用，但在大多数其他情况下，它会导致某种过拟合，并在最终的模型中导致某种程度的泛化缺失。

如果数据经过某种排序，并且你希望机器算法学习该排序（如ID排序）,则有必要在传输数据前尽量打乱其顺序，以获得更适合在线随机学习的最优随机顺序。

最快和占用更少磁盘空间的方式是在内存中流化数据。大多数情况下（但不是全部），由于所训练数据的相对稀疏性和冗余性，以及所使用的压缩算法，该方式是有效的。而在无效的情况下，需要你直接在磁盘上打乱数据，这也意味着要用更多磁盘空间。

这里，首先介绍一种内存中的快速打乱方法，所用的zlib包能快速将行数据压缩到内存中，还会用到random模块中的shuffle函数：

《Python大规模机器学习》— 2.2.5 关注实例排序

对于UNIX用户，通过调用一次sort命令（-R参数），即可很方便地

打乱大量文本文件，并且比Python更有效，通过采用管道技术

，它可以与解压和压缩步骤联合使用。

具体实现命令类似如下：

当RAM不能存储所有压缩数据时，唯一可行的办法是在磁盘上就对文件进行操作。下面的代码段定义了一个函数，它重复地将文件拆分为越来越小的文件，然后在内部打乱它们，最后在更大的文件中将其随机排列。结果不是完全的随机重排，但它的数据行被分散后，足以破坏之前任何可能影响在线学习的顺序：

Python 机器学习

标签：Python大规模机器学习

Python大规模机器学习》—1.1.3使用Python进行向上扩展">《Python大规模机器学习》—1.1.3使用Python进行向上扩展

572 2025-04-04

Python大规模机器学习》—3.5 超参数调整">《Python大规模机器学习》—3.5 超参数调整

572 2025-04-04

Python大规模机器学习》 —1.2.6科学计算发行版">《Python大规模机器学习》 —1.2.6科学计算发行版

572 2025-04-04

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜
进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）
在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐
WPS2016怎么绘制简单的价格表?
进销存库存管理盘点">简单进销存库存管理盘点
系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

《Python大规模机器学习》— 2.2.5 关注实例排序

Python大规模机器学习》—1.1.3使用Python进行向上扩展">《Python大规模机器学习》—1.1.3使用Python进行向上扩展

Python大规模机器学习》—3.5 超参数调整">《Python大规模机器学习》—3.5 超参数调整

Python大规模机器学习》 —1.2.6科学计算发行版">《Python大规模机器学习》 —1.2.6科学计算发行版

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

进销存库存管理盘点">简单进销存库存管理盘点

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

《Python大规模机器学习》— 2.2.5 关注实例排序

微信扫一扫：分享

Python大规模机器学习》—1.1.3使用Python进行向上扩展">《Python大规模机器学习》—1.1.3使用Python进行向上扩展

Python大规模机器学习》—3.5 超参数调整">《Python大规模机器学习》—3.5 超参数调整

Python大规模机器学习》 —1.2.6科学计算发行版">《Python大规模机器学习》 —1.2.6科学计算发行版

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

进销存库存管理盘点">简单进销存库存管理盘点

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接