《深度学习之图像识别：核心技术与案例实战》 —

《深度学习之图像识别：核心技术与案例实战》 ——3.4.3 数据清洗与整理

网友投稿 1325 2022-05-29

3.4.3 数据清洗与整理

数据在采集完之后，往往包含着噪声、缺失数据、不规则数据等各种问题，因此需要对其进行清洗和整理工作，主要包括以下内容。

1．数据规范化管理

规范化管理后的数据，才有可能成为一个标准的数据集，其中数据命名的统一是第一步。通常爬取和采集回来的数据没有统一、连续的命名，因此需要制定统一的格式，命名通常不要含有中文字符和不合法字符等，在后续使用过程中不能对数据集进行重命名，否则会造成数据无法回溯的问题，而导致数据丢失。

另外对于图像等数据，还需要统一格式，例如把一批图片数据统一为JPG格式，防止在某些平台或批量脚本处理中不能正常处理。

2．数据整理分类

在采集数据的时候会有不同场景，不同风格下的数据，这些不同来源的数据需要分开储存，不能混在一起，因为在训练的时候，不同数据集的比例会对训练模型的结果产生很大的影响。对于同一个任务却不同来源的数据，比如室内、室外采集的人像数据，最好分文件夹存放。

数据集包括训练集和测试集，平时使用时数据集、训练集、测试集需要以3个文件夹分别存储，方便进行个性化的打包与传播。

3．数据去噪

采集数据的时候通常无法严格控制来源，比如我们常用爬虫来爬取数据，可能采集到的数据会存在很多噪声。例如，用搜索引擎采集猫的图片，采集到的数据可能会存在非猫的图片，这时候就需要人工或者使用相关的检测算法来去除不符合要求的图片。数据的去噪一般对数据的标注工作会有很大的帮助，能提高标注的效率。

《深度学习之图像识别：核心技术与案例实战》 ——3.4.3 数据清洗与整理

4．数据去重

采集到重复的数据是经常遇到的问题，比如在各大搜索引擎爬取同一类图片就会有重复数据，还有依靠视频切分成图片来获取图片的方法，数据重复性会更严重。大量的重复数据会对训练结果产生影响甚至造成模型过拟合，因此需要依据不同的任务采用不同的数据去重方案。对于图像任务来说，最简单的有逐像素比较去掉完全相同的图片，或者利用各种图像相似度算法去除相似图片。

5．数据存储与备份

在所有数据整理完之后，一定要及时完成数据存储与备份。备份应该遵循一式多份且多个地方存储，一般是本机、服务器、移动硬盘等地方，定时更新，降低数据丢失的可能性。数据无价，希望读者能够重视数据备份问题。

图像识别图像识别服务 Image 图像识别服务

学习 笔记20170601">【PMP】学习 笔记20170601

1325 2022-05-29

前端 学习 -- NuxtJS学习笔记">大前端 学习 -- NuxtJS学习笔记

1325 2022-05-29

美学】深度学习：IoT场景下的AI应用与开发—AI智能销量预测">【IoT美学】深度学习：IoT场景下的AI应用与开发—AI智能销量预测

1325 2022-05-29

《深度 学习之图像识别：核心技术与案例实战》 ——3.4.3 数据清洗与整理

学习 笔记20170601">【PMP】学习 笔记20170601

前端 学习 -- NuxtJS学习笔记">大前端 学习 -- NuxtJS学习笔记

美学】深度学习：IoT场景下的AI应用与开发—AI智能销量预测">【IoT美学】深度学习：IoT场景下的AI应用与开发—AI智能销量预测

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

进销存库存管理盘点">简单进销存库存管理盘点

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

《深度学习之图像识别：核心技术与案例实战》 ——3.4.3 数据清洗与整理

微信扫一扫：分享

学习笔记20170601">【PMP】学习笔记20170601

前端学习 -- NuxtJS学习笔记">大前端学习 -- NuxtJS学习笔记

美学】深度学习：IoT场景下的AI应用与开发—AI智能销量预测">【IoT美学】深度学习：IoT场景下的AI应用与开发—AI智能销量预测

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

进销存库存管理盘点">简单进销存库存管理盘点

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接