《深度 学习之图像识别核心技术与案例实战》—3.4.3 数据清洗与整理

网友投稿 916 2022-05-29

3.4.3 数据清洗与整理

数据在采集完之后，往往包含着噪声、缺失数据、不规则数据等各种问题，因此需要对其进行清洗和整理工作，主要包括以下内容。

1．数据规范化管理

规范化管理后的数据，才有可能成为一个标准的数据集，其中数据命名的统一是第一步。通常爬取和采集回来的数据没有统一、连续的命名，因此需要制定统一的格式，命名通常不要含有中文字符和不合法字符等，在后续使用过程中不能对数据集进行重命名，否则会造成数据无法回溯的问题，而导致数据丢失。

《深度学习之图像识别核心技术与案例实战》—3.4.3 数据清洗与整理

另外对于图像等数据，还需要统一格式，例如把一批图片数据统一为JPG格式，防止在某些平台或批量脚本处理中不能正常处理。

2．数据整理分类

在采集数据的时候会有不同场景，不同风格下的数据，这些不同来源的数据需要分开储存，不能混在一起，因为在训练的时候，不同数据集的比例会对训练模型的结果产生很大的影响。对于同一个任务却不同来源的数据，比如室内、室外采集的人像数据，最好分文件夹存放。

数据集包括训练集和测试集，平时使用时数据集、训练集、测试集需要以3个文件夹分别存储，方便进行个性化的打包与传播。

3．数据去噪

采集数据的时候通常无法严格控制来源，比如我们常用爬虫来爬取数据，可能采集到的数据会存在很多噪声。例如，用搜索引擎采集猫的图片，采集到的数据可能会存在非猫的图片，这时候就需要人工或者使用相关的检测算法来去除不符合要求的图片。数据的去噪一般对数据的标注工作会有很大的帮助，能提高标注的效率。

4．数据去重

采集到重复的数据是经常遇到的问题，比如在各大搜索引擎爬取同一类图片就会有重复数据，还有依靠视频切分成图片来获取图片的方法，数据重复性会更严重。大量的重复数据会对训练结果产生影响甚至造成模型过拟合，因此需要依据不同的任务采用不同的数据去重方案。对于图像任务来说，最简单的有逐像素比较去掉完全相同的图片，或者利用各种图像相似度算法去除相似图片。

5．数据存储与备份

在所有数据整理完之后，一定要及时完成数据存储与备份。备份应该遵循一式多份且多个地方存储，一般是本机、服务器、移动硬盘等地方，定时更新，降低数据丢失的可能性。数据无价，希望读者能够重视数据备份问题。

图像处理深度学习

标签：深度学习图像

学习 笔记20170601">【PMP】学习 笔记20170601

916 2022-05-29

前端 学习 -- NuxtJS学习笔记">大前端 学习 -- NuxtJS学习笔记

916 2022-05-29

美学】深度学习：IoT场景下的AI应用与开发—AI智能销量预测">【IoT美学】深度学习：IoT场景下的AI应用与开发—AI智能销量预测

916 2022-05-29

最近发表

2025年亚洲宠物展览会、京宠展有哪些亮点
wps演示添加自定义按钮设置动作改变按顺序播放" href="https://www.huoban.com/news/post/118206.html">wps演示添加自定义按钮设置动作改变按顺序播放
WPS行中的文本调整到行中" href="https://www.huoban.com/news/post/119027.html">如何将WPS行中的文本调整到行中
系统字体问题（win10系统怎么设置密码）" href="https://www.huoban.com/news/post/62643.html">WIN10系统字体问题（win10系统怎么设置密码）
格式的应用（应用文标题的格式）" href="https://www.huoban.com/news/post/63002.html">标题格式的应用（应用文标题的格式）
数据如何合并成一列，谢谢（如何将两列数据合并到一列）" href="https://www.huoban.com/news/post/71663.html">两列数据如何合并成一列，谢谢（如何将两列数据合并到一列）
无法插入表格
快递录入时间表（快递收寄时间）
项目管理流程7大过程及项目启动策略与实施要点" href="https://www.huoban.com/news/post/152389.html">项目管理流程7大过程及项目启动策略与实施要点
excel表格）" href="https://www.huoban.com/news/post/94768.html">Excel Web App团队享了如何决定功能开发的重要性公式（excel表格）

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜
进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）
在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐
WPS2016怎么绘制简单的价格表?
客户管理工具是什么？">客户管理工具是什么？
电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

《深度 学习之图像识别核心技术与案例实战》—3.4.3 数据清洗与整理

学习 笔记20170601">【PMP】学习 笔记20170601

前端 学习 -- NuxtJS学习笔记">大前端 学习 -- NuxtJS学习笔记

美学】深度学习：IoT场景下的AI应用与开发—AI智能销量预测">【IoT美学】深度学习：IoT场景下的AI应用与开发—AI智能销量预测

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

客户管理工具是什么？">客户管理工具是什么？

电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

友情链接

《深度学习之图像识别核心技术与案例实战》—3.4.3 数据清洗与整理

微信扫一扫：分享

学习笔记20170601">【PMP】学习笔记20170601

前端学习 -- NuxtJS学习笔记">大前端学习 -- NuxtJS学习笔记

美学】深度学习：IoT场景下的AI应用与开发—AI智能销量预测">【IoT美学】深度学习：IoT场景下的AI应用与开发—AI智能销量预测

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

客户管理工具是什么？">客户管理工具是什么？

电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

友情链接