【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理

网友投稿 884 2022-05-29

文章目录

I . 分类概念

II . 分类 ( 离散值 ) 和预测 ( 连续值 )

III . 分类过程

IV . 分类过程中使用的数据集 ( 训练集 | 测试集 | 新数据 )

V . 数据预处理

VI . 分类方法评价

VII . 分类算法举例

VIII . 有监督学习和无监督学习

1 . 数据挖掘任务分类 :

数据挖掘任务分为

模型挖掘和模式挖掘 ,

其中

模型挖掘

包含

描述建模

和预测建模

;

2 . 分类任务类型 :

分类属于

模型挖掘

任务 , 任务类型是

预测建模

类型 ;

3 . 预测建模 :

根据已知的数据特征 , 预测未知的数据特征 ; 如 : 数据有 n 个变量 , 已知 n - 1 个变量的值 , 预测未知的那个变量的值 ;

4 . 预测建模示例 :

根据顾客的年龄 , 收入 , 是否是学生 , 信用等级 , 预测该顾客是否会购买电脑 ;

1 . 分类 ( 离散值 ) :

先构造出模型 , 然后使用该模型对未知样本进行

类别判定

; 类别是固定的几个类 ;

分类使用场景 :

预测离散数据 , 如 : 信用等级评估 , 疾病诊断 ;

2 . 预测 ( 回归 | 连续值 ) :

先构造出模型 , 然后使用该模型对未知样本的

某个值进行估计

; 这个值是一个数值 ;

预测使用场景 :

预测连续的数据 , 如电影票房 , 国家 GDP 等 ;

1 . 分类过程 :

分类分为

建立模型阶段

和

使用模型阶段 ;

2 . 建立模型 ( 学习 ) :

又叫学习阶段 , 训练阶段 ;

① 训练集 :

学习训练阶段使用的模型叫训练集 ;

② 模型表示形式 :

分类规则 , 决策树 , 数学公式等 ;

3 . 使用模型 :

先测试模型 , 测试通过开始使用 ;

① 测试模型 :

测试模型的准确性 , 如果认可该准确性 , 就使用该模型对未知新数据进行分类 ;

② 测试集 :

使用模型对测试集数据进行分类 , 将分类结果与真实结果进行对比 ;

③ 准确率 :

使用模式分类的结果 , 与测试集真实数据 , 分类正确的比例是准确率 ;

④ 测试集要求 :

测试集与训练集不相关 ;

1 . 分类过程中使用的数据集 :

① 训练集 :

使用训练集训练模型 ;

② 测试集 :

使用测试机验证模型的准确性 , 如果准确就使用该模型 , 如果不准确继续训练 ;

③ 新数据 :

使用模型预测新数据的未知字段的分类 ;

④ 相同点 :

三种数据集的格式是一样的 ;

2 . 有监督学习 :

分类属于有监督的学习 , 有监督学习必须有训练模型阶段和测试模型阶段 , 最后才能使用模型 ;

3 . 已知数据 :

通常训练集与测试集集是一体的 , 本质是完全相同的 , 将数据随机分为训练集和测试集 ;

1 . 数据清洗 : 预处理数据 ;

① 删除 :

删除数据的噪音 ;

② 修补 :

修补缺失数据 , 使用常用值 , 平均值 , 统计学中的最大概率出现的值替代缺失数据 ;

2 . 相关分析 :

分类类型的数据挖掘任务中 , 该步骤叫做特征选择 ;

① 主要工作 :

筛选模型中使用的属性 ( 特征值 ) , 屏蔽冗余或不相关的属性 ( 特征值 ) ; 如信用等级与人的星座无关 , 此类特征值就可以在模型中进行删除 ;

② 分类工作 :

数据有 n n n 个属性 ( 特征 ) , 已知 n − 1 n-1 n−1 个特征值 , 预测未知的那个特征值 ;

③ 模型复杂程度 :

选择使用哪些属性 ( 特征 ) 值进行预测 , 关系到模型的复杂程度 , 模型中使用的特征值个数越多 , 越复杂 ;

④ 特征工程 :

这里引入特征工程概念 , 特征处理的工作就是特征工程的核心 ;

3 . 数据转换 :

① 概括数据 :

将连续值离散化 , 如 100 分满分 , 低于 60 不及格 , 高于 60 及格 , 这样就将 0 ~ 100 的数值分成及格与不及格两个特征 ;

② 数据规范 :

将数据规范化 , 规范单位 , 如身高有的使用 cm , 有的使用 m , 有的使用英尺 , 将数据单位都设置成统一单位 ;

分类方法评价标准 :

① 准确性 :

保证性能的前提下 , 越准确越好 ;

② 速度 :

构造模型的速度 ( 训练和测试时间 ) , 使用模型的速度 ;

③ 容错性 ( 鲁棒性 ) :

能处理数据中的噪音 , 和数据缺失等情况 ;

④ 伸缩性 :

内存中数据可以使用 , 磁盘中的数据也可以使用 ;

⑤ 交互性 :

模型解释性好 , 易于理解 ;

如深度学习中的神经元网络不易理解 , 被人称为炼金术 ;

分类算法示例 :

① 决策树分类

② 贝叶斯分类

③ 支持向量机

④ 神经元网络

⑤ K 近邻分类

1 . 有监督学习 :

明确地分为两个阶段 ; 训练模型阶段 , 使用训练集数据 ; 使用模型阶段 , 预测新数据某个特征 ;

有监督学习举例 :

分类过程是典型的有监督学习过程 ;

2 . 无监督学习 :

没有训练阶段和预测阶段的明显划分 ;

无监督学习举例 :

聚类分析 ;

3 . 半监督学习 :

介于有监督学习和无监督学习之间 ;

数据挖掘机器学习

PDF转Excel：高效去除AI特征，实现数据自由编辑

884 2022-05-29

【数据 挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )

PDF转Excel：高效去除AI特征，实现数据自由编辑

河北经贸大学录取分数线：2024年最低454分（含各专业录取最低分）

中南林业科技大学2024年录取分数线含各专业录取最低分）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

简单进销存库存管理盘点

友情链接