《数据科学与分析:Python语言实现》 —1.4.6 数据科学:一个迭代过程

网友投稿 604 2022-05-28

1.4.6 数据科学:一个迭代过程

机器学习模型已经在干净的数据上运行的简单事实并不意味着数据科学家的工作已经完成并且尘埃落定。相反,需要仔细监控模型的有效性,因为结果取决于提供给模型的数据。一个简单的例子就是garbage-in-garbage-out(若输入错误数据,则输出亦为错误数据)。类似地,具有各种新特征的任何新数据都可能降低初始模型的准确性,因此有必要调整参数或获取新数据。

此外,即使最开始存在一个不需要改变的模型,但随着新的和后续的问题在数据科学分析过程中不断涌现,工作流程逐渐向上螺旋盘升,因此需要不断迭代改进以提供新的洞察力。

我想用一些数据科学家团队及相关负责人应该始终牢记的问题来结束本章:

《数据科学与分析:Python语言实现》 —1.4.6 数据科学:一个迭代过程

使用什么数据?为什么?

数据从何而来,谁拥有它们?

是否使用了整个数据集?这个集合能代表整个样本空间吗?

有异常值吗?分析中考虑过它们吗?

在应用模型/算法时做出了什么假设条件?它们容易放松/加强吗?

模型的结果对流程/业务/产品意味着什么?

python 机器学习 Python

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:《Python大规模机器学习》 —2.5小结
下一篇:虚拟机与EXSI转换
相关文章