人人都会数据分析 | 了解统计指标与异常值的简单处理

网友投稿 837 2022-05-29

上一篇文章简单学习了什么是数据,这次来看看什么是统计指标,进一步了解更多数据分析相关的基础知识。

什么是统计指标

体现总体数量特征的概念和数值

根据数据分析的目的不同,统计指标也会变化

分析招聘数据的时候:技能、薪资、岗位年限

分析用户转化率:网站浏览量、着陆页、跳失率

分析理财产品的时候:往期的业绩、风险系数、年化收益

统计指标根据他体现的内容分为两大类:总量指标,相对指标

总量指标

描述特定条件下的总规模、总水平或工作总量的指标

GDP、销售总额、总人口数

相对指标

描述的是相对关系,而不是总体情况

是指两个有联系的现象数值相比得到的比率

比例:各数据 / 总比 %

比率:数据想:数据项

倍数:突出上升、增长幅度

环比增长率(短期): (本期数 - 上期数)/ 上期数 * 100 %

同比增长率(长期):(本期数 - 同期数)/ 同期数 * 100 %

注意:环比更注重短期的涨幅表现,同比更注重长期的涨幅表现

除了以上的两大类外还有三个统计指标值得我们学习,分别是集中趋势指标、离散趋势指标、分布形态

统计指标:集中趋势指标 - 平均指标

平均值

用一个数字显示总体一般水平就为平均指标也叫集中趋势指标,最常用的集中趋势指标就是平均值

平均值 = 所有数据相加 / 数据的个数

在通常的数据处理中经常会出现异常的数据,比如数据特别大或特别小就会影响平均值,这样得出的平均值具有一定的误导性,平均值对于异常数并不敏感

我和马大大的月薪平均过亿...

正是因为这样情况,所以还有一个指标 - 中位数,需要了解一下

中位数

中位数是指按顺序排列后,居于中间位置的数

数据为奇数:位于(n+1)/ 2 位置的数为中位数

数据为偶数:位于最中间的两位数相加 / 2 为中位数

这样的数据更具有代表性

众数

众数是指出现次数最多的数值,反应的是局部特征、密集度

统计指标:离散趋势指标

上面讲完了集中趋势指标,现在来了解下什么是离散趋势指标

离散趋势指标是体现内部差异度的指标,主要有三类:极差、平均查、标准差

极差

极差体现数据内部最大的差异情况

极差 = 最大值 - 最小值

人人都会数据分析 | 了解统计指标与异常值的简单处理

但是极差不能体现数据内部真正的数据差异情况,体现数据内部真正的差异情况我们使用平均差

平均差

平均差体现的是一组数据与平均值差异的平均差异

平均差 = |每个数据项 - 均值|的总和 / 数据项个数

数据项与平均值的差距越大,数据越分散,反之越集中

不过这里需要注意,当一组数据中存在数据异常值的时候,就容易导致误差,所以针对这种情况,就有了对离散值更敏感的标准差

标准差

标准差是相比与平均差更能代表离散程度的指标

标准差 = ((|每个数据项 - 均值|)平方的总和 / 数据项个数)开方

使用标准差能更直观的了解差异程度,是我们最常用的离散指标

统计指标:分布形态

分布形态指的是图表化呈现出来的形态

常见的形态有:左偏分布、右偏分布、正态分布

左偏分布:平均值是偏左的,众数(也就是峰值)是偏右的

右偏分布:平均值是偏右的,众数(也就是峰值)是偏左的

正态分布:平均值是居中的,众数(也就是峰值)是居中的

异常值

上面在介绍各类指标的时候,一直都有提到一个会影响我们判断的概念,就是异常值,那么怎么识别异常值呢?

异常值一般是指与平均值偏差极大或极小的值,也叫离群值

上面也同时提到了一般是指,这个判断标准要取决于具体分析的业务对象

例如:周期性的产业,比如旅游行业是有淡旺季之分的,旺季的数据通常能达到淡季的两倍以上,这样的数据就不能视为异常值

识别异常值

一般的业务数据通过观察异常值与整体数据的差距可以识别异常值

通常情况下我们采用的方法是通过计算与平均的倍数,异常值与平均值计算出来的倍数通常远大于(小于)其他数据与平均值计算出来的倍数,这样就可以简单的识别出哪些数据项是异常值了。

至于如何处理异常值,一般要看具体的业务分析

异常值判定

1、对于错误记录的异常值,直接修改为正常数据即可,例如将工资数据错误记录为负数,我们直接修改即可

2、对于错误添加的异常值,直接删除即可,例如在预处理时,将年龄数据混入了工资数据中,我们就可以直接删除了

3、对于正确、真实的异常值,这个需要根据具体业务分析,需要判断这个异常值是否反映特殊的事件。

例如,在基金行情的走势图中存在因为分红导致的基金走势波动大,如果我们是为了分析该基金的行情走势,那么我们就不能处理这个异常值。如果我们分析数据是为了量化交易,那么就要修改调整这个异常值

还有就是对于周期性的数据,例如上面提到的旅游数据,对于这类数据我们是不做处理的

处理异常值

1、对于错误数据,我们可以填充空值、填充样本平均值

2、对于正确、真实的数据,我们可以根据实际情况调整、数值 * 需要调整的比率

例如之前提供的例子中,当基金因为分红导致当天下跌了 8%,对于这样的数据,我们可以将之后的价格调整为 收盘价 *(1+0.08)

这次我们简单了解了什么是统计指标,以及异常值的简单处理,现在我们对数据分析的基础知识已经有了比较好的认识了,那么是时候体系化的了解数据分析的整体流程,为之后数据分析工具的学习打下基础了。

好了,今天的文章就到这里,我们下次再会~

上一篇文章简单学习了什么是数据,这次来看看什么是统计指标,进一步了解更多数据分析相关的基础知识。

什么是统计指标

体现总体数量特征的概念和数值

根据数据分析的目的不同,统计指标也会变化

分析招聘数据的时候:技能、薪资、岗位年限

分析用户转化率:网站浏览量、着陆页、跳失率

分析理财产品的时候:往期的业绩、风险系数、年化收益

统计指标根据他体现的内容分为两大类:总量指标,相对指标

总量指标

描述特定条件下的总规模、总水平或工作总量的指标

GDP、销售总额、总人口数

相对指标

描述的是相对关系,而不是总体情况

是指两个有联系的现象数值相比得到的比率

比例:各数据 / 总比 %

比率:数据想:数据项

倍数:突出上升、增长幅度

环比增长率(短期): (本期数 - 上期数)/ 上期数 * 100 %

同比增长率(长期):(本期数 - 同期数)/ 同期数 * 100 %

注意:环比更注重短期的涨幅表现,同比更注重长期的涨幅表现

除了以上的两大类外还有三个统计指标值得我们学习,分别是集中趋势指标、离散趋势指标、分布形态

统计指标:集中趋势指标 - 平均指标

用一个数字显示总体一般水平就为平均指标也叫集中趋势指标,最常用的集中趋势指标就是平均值

平均值 = 所有数据相加 / 数据的个数

在通常的数据处理中经常会出现异常的数据,比如数据特别大或特别小就会影响平均值,这样得出的平均值具有一定的误导性,平均值对于异常数并不敏感

我和马大大的月薪平均过亿...

正是因为这样情况,所以还有一个指标 - 中位数,需要了解一下

中位数是指按顺序排列后,居于中间位置的数

数据为奇数:位于(n+1)/ 2 位置的数为中位数

数据为偶数:位于最中间的两位数相加 / 2 为中位数

这样的数据更具有代表性

众数是指出现次数最多的数值,反应的是局部特征、密集度

统计指标:离散趋势指标

上面讲完了集中趋势指标,现在来了解下什么是离散趋势指标

离散趋势指标是体现内部差异度的指标,主要有三类:极差、平均查、标准差

极差

极差体现数据内部最大的差异情况

极差 = 最大值 - 最小值

但是极差不能体现数据内部真正的数据差异情况,体现数据内部真正的差异情况我们使用平均差

平均差

平均差体现的是一组数据与平均值差异的平均差异

平均差 = |每个数据项 - 均值|的总和 / 数据项个数

数据项与平均值的差距越大,数据越分散,反之越集中

不过这里需要注意,当一组数据中存在数据异常值的时候,就容易导致误差,所以针对这种情况,就有了对离散值更敏感的标准差

标准差

标准差是相比与平均差更能代表离散程度的指标

标准差 = ((|每个数据项 - 均值|)平方的总和 / 数据项个数)开方

使用标准差能更直观的了解差异程度,是我们最常用的离散指标

统计指标:分布形态

分布形态指的是图表化呈现出来的形态

常见的形态有:左偏分布、右偏分布、正态分布

左偏分布:平均值是偏左的,众数(也就是峰值)是偏右的

右偏分布:平均值是偏右的,众数(也就是峰值)是偏左的

正态分布:平均值是居中的,众数(也就是峰值)是居中的

异常值

上面在介绍各类指标的时候,一直都有提到一个会影响我们判断的概念,就是异常值,那么怎么识别异常值呢?

异常值一般是指与平均值偏差极大或极小的值,也叫离群值

上面也同时提到了一般是指,这个判断标准要取决于具体分析的业务对象

例如:周期性的产业,比如旅游行业是有淡旺季之分的,旺季的数据通常能达到淡季的两倍以上,这样的数据就不能视为异常值

一般的业务数据通过观察异常值与整体数据的差距可以识别异常值

通常情况下我们采用的方法是通过计算与平均的倍数,异常值与平均值计算出来的倍数通常远大于(小于)其他数据与平均值计算出来的倍数,这样就可以简单的识别出哪些数据项是异常值了。

至于如何处理异常值,一般要看具体的业务分析

1、对于错误记录的异常值,直接修改为正常数据即可,例如将工资数据错误记录为负数,我们直接修改即可

2、对于错误添加的异常值,直接删除即可,例如在预处理时,将年龄数据混入了工资数据中,我们就可以直接删除了

3、对于正确、真实的异常值,这个需要根据具体业务分析,需要判断这个异常值是否反映特殊的事件。

例如,在基金行情的走势图中存在因为分红导致的基金走势波动大,如果我们是为了分析该基金的行情走势,那么我们就不能处理这个异常值。如果我们分析数据是为了量化交易,那么就要修改调整这个异常值

还有就是对于周期性的数据,例如上面提到的旅游数据,对于这类数据我们是不做处理的

1、对于错误数据,我们可以填充空值、填充样本平均值

2、对于正确、真实的数据,我们可以根据实际情况调整、数值 * 需要调整的比率

例如之前提供的例子中,当基金因为分红导致当天下跌了 8%,对于这样的数据,我们可以将之后的价格调整为 收盘价 *(1+0.08)

这次我们简单了解了什么是统计指标,以及异常值的简单处理,现在我们对数据分析的基础知识已经有了比较好的认识了,那么是时候体系化的了解数据分析的整体流程,为之后数据分析工具的学习打下基础了。

好了,今天的文章就到这里,我们下次再会~

大数据 应用与数据集成平台 ROMA Connect 数据挖掘

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:一文读懂GaussDB(openGauss) 的六大关键技术特性
下一篇:华为云数仓GaussDB(DWS)备份恢复的实现
相关文章