《Python大规模机器学习》 —2.2.3使用pandas I/O工具-伙伴云

网友投稿 707 2025-04-01

2.2.3使用pandas I/O工具

我们可以使用pandas的read_csv函数替代csv模块。该函数专门用于上传CSV文件，pandas有大量支持多种文件格式的I/O函数，这是其中之一。相关文档资料请查看http://pandas.pydata.org/pandas-docs/stable/io.html。

使用pandas的I/O函数的优点如下：

如果更改源代码类型，能保持代码一致性，也就是说，只需要重新定义流迭代器。

支持多种格式，如CSV、普通TXT、HDF、JSON和对特定数据库的SQL查询等。

《Python大规模机器学习》 —2.2.3使用pandas I/O工具

数据以DataFrame数据结构的形式流入所需大小的数据块，以便以位置方式或通过调用其标签来访问这些特征，这要用到.loc、.iloc、.ix等典型的pandas数据切割方法。

下面的示例仍然使用与之前相同的方法，但使用pandas的read_csv函数建立流数据:

这里需要注意的是，迭代器是通过指定块大小来实例化的，也就是说，迭代器在每次迭代时必须返回行数。chunksize参数假设值的范围是从1到任何值，但很明显，小批量处理(检索到的块)的大小与可用内存紧密相连，以便在后续预处理阶段中存储和操作它。

将较大数据块调入内存具有的优势仅仅体现在磁盘访问上。根据物理存储特性，较小数据块需要对磁盘进行多次访问，这会花费更长时间来传递数据。然而，从机器学习角度来看，较小或较大的块对Scikit中的非核心学习函数几乎没有影响，因为它们每次只学习一个实例，从而使得它们在计算成本上呈现真正的线性化。

TensorFlow python 机器学习

Python大规模机器学习》—3 实现快速SVM">《Python大规模机器学习》—3 实现快速SVM

707 2025-04-01

Python大规模机器学习》 —2.4数据流的特征管理">《Python大规模机器学习》 —2.4数据流的特征管理

707 2025-04-01

Python大规模机器学习》 —3 实现快速SVM">《Python大规模机器学习》 —3 实现快速SVM

707 2025-04-01

《Python大规模机器学习》 —2.2.3使用pandas I/O工具

Python大规模机器学习》—3 实现快速SVM">《Python大规模机器学习》—3 实现快速SVM

Python大规模机器学习》 —2.4数据流的特征管理">《Python大规模机器学习》 —2.4数据流的特征管理

Python大规模机器学习》 —3 实现快速SVM">《Python大规模机器学习》 —3 实现快速SVM

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

定制家居数字化管理模式：提升品质、智能化和个性化的未

友情链接

《Python大规模机器学习》 —2.2.3使用pandas I/O工具

微信扫一扫：分享

Python大规模机器学习》—3 实现快速SVM">《Python大规模机器学习》—3 实现快速SVM

Python大规模机器学习》 —2.4数据流的特征管理">《Python大规模机器学习》 —2.4数据流的特征管理

Python大规模机器学习》 —3 实现快速SVM">《Python大规模机器学习》 —3 实现快速SVM

推荐文章

最近发表

热评文章

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

友情链接