人人都会数据分析 | 了解统计指标与异常值的简单处理-伙伴云

人人都会数据分析 | 了解统计指标与异常值的简单处理

网友投稿 980 2022-05-29

上一篇文章简单学习了什么是数据，这次来看看什么是统计指标，进一步了解更多数据分析相关的基础知识。

什么是统计指标

体现总体数量特征的概念和数值

根据数据分析的目的不同，统计指标也会变化

“

分析招聘数据的时候：技能、薪资、岗位年限

分析用户转化率：网站浏览量、着陆页、跳失率

分析理财产品的时候：往期的业绩、风险系数、年化收益

统计指标根据他体现的内容分为两大类：总量指标，相对指标

总量指标

描述特定条件下的总规模、总水平或工作总量的指标

“

GDP、销售总额、总人口数

相对指标

描述的是相对关系，而不是总体情况

是指两个有联系的现象数值相比得到的比率

“

比例：各数据 / 总比 %

比率：数据想：数据项

倍数：突出上升、增长幅度

环比增长率（短期）：（本期数 - 上期数）/ 上期数 * 100 %

同比增长率（长期）：（本期数 - 同期数）/ 同期数 * 100 %

注意：环比更注重短期的涨幅表现，同比更注重长期的涨幅表现

除了以上的两大类外还有三个统计指标值得我们学习，分别是集中趋势指标、离散趋势指标、分布形态

统计指标：集中趋势指标 - 平均指标

平均值

用一个数字显示总体一般水平就为平均指标也叫集中趋势指标，最常用的集中趋势指标就是平均值

“

平均值 = 所有数据相加 / 数据的个数

在通常的数据处理中经常会出现异常的数据，比如数据特别大或特别小就会影响平均值，这样得出的平均值具有一定的误导性，平均值对于异常数并不敏感

人人都会数据分析 | 了解统计指标与异常值的简单处理

“

我和马大大的月薪平均过亿...

正是因为这样情况，所以还有一个指标 - 中位数，需要了解一下

中位数

中位数是指按顺序排列后，居于中间位置的数

“

数据为奇数：位于（n+1）/ 2 位置的数为中位数

数据为偶数：位于最中间的两位数相加 / 2 为中位数

这样的数据更具有代表性

众数

众数是指出现次数最多的数值，反应的是局部特征、密集度

统计指标：离散趋势指标

上面讲完了集中趋势指标，现在来了解下什么是离散趋势指标

离散趋势指标是体现内部差异度的指标，主要有三类：极差、平均查、标准差

极差

极差体现数据内部最大的差异情况

“

极差 = 最大值 - 最小值

但是极差不能体现数据内部真正的数据差异情况，体现数据内部真正的差异情况我们使用平均差

平均差

平均差体现的是一组数据与平均值差异的平均差异

“

平均差 = |每个数据项 - 均值|的总和 / 数据项个数

数据项与平均值的差距越大，数据越分散，反之越集中

不过这里需要注意，当一组数据中存在数据异常值的时候，就容易导致误差，所以针对这种情况，就有了对离散值更敏感的标准差

标准差

标准差是相比与平均差更能代表离散程度的指标

“

标准差 = （（|每个数据项 - 均值|）平方的总和 / 数据项个数）开方

使用标准差能更直观的了解差异程度，是我们最常用的离散指标

统计指标：分布形态

分布形态指的是图表化呈现出来的形态

常见的形态有：左偏分布、右偏分布、正态分布

左偏分布：平均值是偏左的，众数（也就是峰值）是偏右的

右偏分布：平均值是偏右的，众数（也就是峰值）是偏左的

正态分布：平均值是居中的，众数（也就是峰值）是居中的

异常值

上面在介绍各类指标的时候，一直都有提到一个会影响我们判断的概念，就是异常值，那么怎么识别异常值呢？

异常值一般是指与平均值偏差极大或极小的值，也叫离群值

上面也同时提到了一般是指，这个判断标准要取决于具体分析的业务对象

“

例如：周期性的产业，比如旅游行业是有淡旺季之分的，旺季的数据通常能达到淡季的两倍以上，这样的数据就不能视为异常值

识别异常值

一般的业务数据通过观察异常值与整体数据的差距可以识别异常值

通常情况下我们采用的方法是通过计算与平均的倍数，异常值与平均值计算出来的倍数通常远大于（小于）其他数据与平均值计算出来的倍数，这样就可以简单的识别出哪些数据项是异常值了。

至于如何处理异常值，一般要看具体的业务分析

异常值判定

1、对于错误记录的异常值，直接修改为正常数据即可，例如将工资数据错误记录为负数，我们直接修改即可

2、对于错误添加的异常值，直接删除即可，例如在预处理时，将年龄数据混入了工资数据中，我们就可以直接删除了

3、对于正确、真实的异常值，这个需要根据具体业务分析，需要判断这个异常值是否反映特殊的事件。

“

例如，在基金行情的走势图中存在因为分红导致的基金走势波动大，如果我们是为了分析该基金的行情走势，那么我们就不能处理这个异常值。如果我们分析数据是为了量化交易，那么就要修改调整这个异常值

还有就是对于周期性的数据，例如上面提到的旅游数据，对于这类数据我们是不做处理的

处理异常值

1、对于错误数据，我们可以填充空值、填充样本平均值

2、对于正确、真实的数据，我们可以根据实际情况调整、数值 * 需要调整的比率

“

例如之前提供的例子中，当基金因为分红导致当天下跌了 8%，对于这样的数据，我们可以将之后的价格调整为收盘价 *（1+0.08）

这次我们简单了解了什么是统计指标，以及异常值的简单处理，现在我们对数据分析的基础知识已经有了比较好的认识了，那么是时候体系化的了解数据分析的整体流程，为之后数据分析工具的学习打下基础了。

好了，今天的文章就到这里，我们下次再会~

上一篇文章简单学习了什么是数据，这次来看看什么是统计指标，进一步了解更多数据分析相关的基础知识。

什么是统计指标

体现总体数量特征的概念和数值

根据数据分析的目的不同，统计指标也会变化

分析招聘数据的时候：技能、薪资、岗位年限

分析用户转化率：网站浏览量、着陆页、跳失率

分析理财产品的时候：往期的业绩、风险系数、年化收益

统计指标根据他体现的内容分为两大类：总量指标，相对指标

总量指标

描述特定条件下的总规模、总水平或工作总量的指标

GDP、销售总额、总人口数

相对指标

描述的是相对关系，而不是总体情况

是指两个有联系的现象数值相比得到的比率

比例：各数据 / 总比 %

比率：数据想：数据项

倍数：突出上升、增长幅度

环比增长率（短期）：（本期数 - 上期数）/ 上期数 * 100 %

同比增长率（长期）：（本期数 - 同期数）/ 同期数 * 100 %

注意：环比更注重短期的涨幅表现，同比更注重长期的涨幅表现

除了以上的两大类外还有三个统计指标值得我们学习，分别是集中趋势指标、离散趋势指标、分布形态

统计指标：集中趋势指标 - 平均指标

用一个数字显示总体一般水平就为平均指标也叫集中趋势指标，最常用的集中趋势指标就是平均值

平均值 = 所有数据相加 / 数据的个数

我和马大大的月薪平均过亿...

正是因为这样情况，所以还有一个指标 - 中位数，需要了解一下

中位数是指按顺序排列后，居于中间位置的数

数据为奇数：位于（n+1）/ 2 位置的数为中位数

数据为偶数：位于最中间的两位数相加 / 2 为中位数

这样的数据更具有代表性

众数是指出现次数最多的数值，反应的是局部特征、密集度

统计指标：离散趋势指标

上面讲完了集中趋势指标，现在来了解下什么是离散趋势指标

离散趋势指标是体现内部差异度的指标，主要有三类：极差、平均查、标准差

极差

极差体现数据内部最大的差异情况

极差 = 最大值 - 最小值

但是极差不能体现数据内部真正的数据差异情况，体现数据内部真正的差异情况我们使用平均差

平均差

平均差体现的是一组数据与平均值差异的平均差异

平均差 = |每个数据项 - 均值|的总和 / 数据项个数

数据项与平均值的差距越大，数据越分散，反之越集中

不过这里需要注意，当一组数据中存在数据异常值的时候，就容易导致误差，所以针对这种情况，就有了对离散值更敏感的标准差

标准差

标准差是相比与平均差更能代表离散程度的指标

标准差 = （（|每个数据项 - 均值|）平方的总和 / 数据项个数）开方

使用标准差能更直观的了解差异程度，是我们最常用的离散指标

统计指标：分布形态

分布形态指的是图表化呈现出来的形态

常见的形态有：左偏分布、右偏分布、正态分布

左偏分布：平均值是偏左的，众数（也就是峰值）是偏右的

右偏分布：平均值是偏右的，众数（也就是峰值）是偏左的

正态分布：平均值是居中的，众数（也就是峰值）是居中的

异常值

上面在介绍各类指标的时候，一直都有提到一个会影响我们判断的概念，就是异常值，那么怎么识别异常值呢？

异常值一般是指与平均值偏差极大或极小的值，也叫离群值

上面也同时提到了一般是指，这个判断标准要取决于具体分析的业务对象

例如：周期性的产业，比如旅游行业是有淡旺季之分的，旺季的数据通常能达到淡季的两倍以上，这样的数据就不能视为异常值

一般的业务数据通过观察异常值与整体数据的差距可以识别异常值

至于如何处理异常值，一般要看具体的业务分析

1、对于错误记录的异常值，直接修改为正常数据即可，例如将工资数据错误记录为负数，我们直接修改即可

2、对于错误添加的异常值，直接删除即可，例如在预处理时，将年龄数据混入了工资数据中，我们就可以直接删除了

3、对于正确、真实的异常值，这个需要根据具体业务分析，需要判断这个异常值是否反映特殊的事件。

还有就是对于周期性的数据，例如上面提到的旅游数据，对于这类数据我们是不做处理的

1、对于错误数据，我们可以填充空值、填充样本平均值

2、对于正确、真实的数据，我们可以根据实际情况调整、数值 * 需要调整的比率

例如之前提供的例子中，当基金因为分红导致当天下跌了 8%，对于这样的数据，我们可以将之后的价格调整为收盘价 *（1+0.08）

好了，今天的文章就到这里，我们下次再会~

大数据应用与数据集成平台 ROMA Connect 数据挖掘

数据 如何合并成一列，谢谢（如何将两列数据合并到一列）">两列数据 如何合并成一列，谢谢（如何将两列数据合并到一列）

980 2022-05-29

SUBSTITUTE

980 2022-05-29

数据中找到和下面数据一样的数据，单直接排序的话需要手动去挑出来，求大神指教！">我想在6000多条数据中找到和下面数据一样的数据，单直接排序的话需要手动去挑出来，求大神指教！

980 2022-05-29

人人 都会 数据 分析 | 了解统计指标与异常值的简单处理

数据 如何合并成一列，谢谢（如何将两列数据合并到一列）">两列数据 如何合并成一列，谢谢（如何将两列数据合并到一列）

SUBSTITUTE

数据中找到和下面数据一样的数据，单直接排序的话需要手动去挑出来，求大神指教！">我想在6000多条数据中找到和下面数据一样的数据，单直接排序的话需要手动去挑出来，求大神指教！

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

定制订单管理系统（为特定需求定制的订单管理系统）

友情链接

人人都会数据分析 | 了解统计指标与异常值的简单处理

微信扫一扫：分享

数据如何合并成一列，谢谢（如何将两列数据合并到一列）">两列数据如何合并成一列，谢谢（如何将两列数据合并到一列）

数据中找到和下面数据一样的数据，单直接排序的话需要手动去挑出来，求大神指教！">我想在6000多条数据中找到和下面数据一样的数据，单直接排序的话需要手动去挑出来，求大神指教！

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

电子表格，居家办公更轻松">用在线电子表格，居家办公更轻松

友情链接