PDF转Excel:高效去除AI特征,实现数据自由编辑
884
2022-05-29
文章目录
I . 分类概念
II . 分类 ( 离散值 ) 和 预测 ( 连续值 )
III . 分类过程
IV . 分类过程中使用的数据集 ( 训练集 | 测试集 | 新数据 )
V . 数据预处理
VI . 分类方法评价
VII . 分类算法举例
VIII . 有监督学习 和 无监督学习
1 . 数据挖掘任务分类 :
数据挖掘任务分为
模型挖掘 和 模式挖掘 ,
其中
模型挖掘
包含
描述建模
和 预测建模
;
2 . 分类任务类型 :
分类 属于
模型挖掘
任务 , 任务类型是
预测建模
类型 ;
3 . 预测建模 :
根据 已知的数据特征 , 预测未知的数据特征 ; 如 : 数据有 n 个变量 , 已知 n - 1 个变量的值 , 预测未知的那个变量的值 ;
4 . 预测建模 示例 :
根据顾客的 年龄 , 收入 , 是否是学生 , 信用等级 , 预测该顾客是否会购买电脑 ;
1 . 分类 ( 离散值 ) :
先构造出模型 , 然后使用该模型对未知样本进行
类别判定
; 类别是固定的几个类 ;
分类使用场景 :
预测 离散数据 , 如 : 信用等级评估 , 疾病诊断 ;
2 . 预测 ( 回归 | 连续值 ) :
先构造出模型 , 然后使用该模型对未知样本的
某个值进行估计
; 这个值是一个数值 ;
预测使用场景 :
预测 连续的数据 , 如电影票房 , 国家 GDP 等 ;
1 . 分类过程 :
分类分为
建立模型阶段
和
使用模型阶段 ;
2 . 建立模型 ( 学习 ) :
又叫学习阶段 , 训练阶段 ;
① 训练集 :
学习训练阶段使用的模型叫训练集 ;
② 模型表示形式 :
分类规则 , 决策树 , 数学公式 等 ;
3 . 使用模型 :
先测试模型 , 测试通过开始使用 ;
① 测试模型 :
测试模型的准确性 , 如果认可该准确性 , 就使用该模型对未知新数据进行分类 ;
② 测试集 :
使用 模型 对测试集数据进行分类 , 将分类结果与真实结果进行对比 ;
③ 准确率 :
使用模式分类的结果 , 与测试集真实数据 , 分类正确的比例是 准确率 ;
④ 测试集要求 :
测试集 与 训练集 不相关 ;
1 . 分类过程中使用的数据集 :
① 训练集 :
使用训练集训练 模型 ;
② 测试集 :
使用测试机验证 模型 的准确性 , 如果准确就使用该模型 , 如果不准确继续训练 ;
③ 新数据 :
使用模型 预测 新数据的未知字段的分类 ;
④ 相同点 :
三种数据集的格式是一样的 ;
2 . 有监督学习 :
分类属于有监督的学习 , 有监督学习必须有 训练模型阶段 和 测试模型阶段 , 最后才能使用模型 ;
3 . 已知数据 :
通常 训练集 与 测试集集 是一体的 , 本质是完全相同的 , 将数据随机分为 训练集 和 测试集 ;
1 . 数据清洗 : 预处理数据 ;
① 删除 :
删除数据的噪音 ;
② 修补 :
修补缺失数据 , 使用常用值 , 平均值 , 统计学中的最大概率出现的值替代缺失数据 ;
2 . 相关分析 :
分类 类型的数据挖掘任务中 , 该步骤叫做 特征选择 ;
① 主要工作 :
筛选 模型 中使用的 属性 ( 特征值 ) , 屏蔽 冗余 或 不相关 的 属性 ( 特征值 ) ; 如 信用等级与人的星座无关 , 此类特征值就可以在模型中进行删除 ;
② 分类工作 :
数据有 n n n 个 属性 ( 特征 ) , 已知 n − 1 n-1 n−1 个特征值 , 预测未知的那个特征值 ;
③ 模型复杂程度 :
选择使用哪些 属性 ( 特征 ) 值 进行预测 , 关系到模型的复杂程度 , 模型中使用的特征值个数越多 , 越复杂 ;
④ 特征工程 :
这里引入 特征工程 概念 , 特征处理的工作就是特征工程的核心 ;
3 . 数据转换 :
① 概括数据 :
将连续值离散化 , 如 100 分满分 , 低于 60 不及格 , 高于 60 及格 , 这样就将 0 ~ 100 的数值分成 及格 与 不及格两个特征 ;
② 数据规范 :
将数据规范化 , 规范单位 , 如身高有的使用 cm , 有的使用 m , 有的使用英尺 , 将数据单位都设置成统一单位 ;
分类方法评价标准 :
① 准确性 :
保证性能的前提下 , 越准确越好 ;
② 速度 :
构造模型的速度 ( 训练 和 测试 时间 ) , 使用模型的速度 ;
③ 容错性 ( 鲁棒性 ) :
能处理数据中的噪音 , 和数据缺失等情况 ;
④ 伸缩性 :
内存中数据可以使用 , 磁盘中的数据也可以使用 ;
⑤ 交互性 :
模型解释性好 , 易于理解 ;
如深度学习中的神经元网络不易理解 , 被人称为炼金术 ;
分类算法示例 :
① 决策树分类
② 贝叶斯分类
③ 支持向量机
④ 神经元网络
⑤ K 近邻分类
1 . 有监督学习 :
明确地分为两个阶段 ; 训练模型阶段 , 使用训练集数据 ; 使用模型阶段 , 预测新数据某个特征 ;
有监督学习举例 :
分类过程 是典型的有监督学习过程 ;
2 . 无监督学习 :
没有训练阶段 和 预测阶段 的明显划分 ;
无监督学习举例 :
聚类分析 ;
3 . 半监督学习 :
介于 有监督学习 和 无监督学习之间 ;
数据挖掘 机器学习
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。