PDF转Excel:高效去除AI特征,实现数据自由编辑
837
2022-05-29
上一篇文章简单学习了什么是数据,这次来看看什么是统计指标,进一步了解更多数据分析相关的基础知识。
什么是统计指标
体现总体数量特征的概念和数值
根据数据分析的目的不同,统计指标也会变化
“
分析招聘数据的时候:技能、薪资、岗位年限
分析用户转化率:网站浏览量、着陆页、跳失率
分析理财产品的时候:往期的业绩、风险系数、年化收益
统计指标根据他体现的内容分为两大类:总量指标,相对指标
总量指标
描述特定条件下的总规模、总水平或工作总量的指标
“
GDP、销售总额、总人口数
相对指标
描述的是相对关系,而不是总体情况
是指两个有联系的现象数值相比得到的比率
“
比例:各数据 / 总比 %
比率:数据想:数据项
倍数:突出上升、增长幅度
环比增长率(短期): (本期数 - 上期数)/ 上期数 * 100 %
同比增长率(长期):(本期数 - 同期数)/ 同期数 * 100 %
注意:环比更注重短期的涨幅表现,同比更注重长期的涨幅表现
除了以上的两大类外还有三个统计指标值得我们学习,分别是集中趋势指标、离散趋势指标、分布形态
统计指标:集中趋势指标 - 平均指标
平均值
用一个数字显示总体一般水平就为平均指标也叫集中趋势指标,最常用的集中趋势指标就是平均值
“
平均值 = 所有数据相加 / 数据的个数
在通常的数据处理中经常会出现异常的数据,比如数据特别大或特别小就会影响平均值,这样得出的平均值具有一定的误导性,平均值对于异常数并不敏感
“
我和马大大的月薪平均过亿...
正是因为这样情况,所以还有一个指标 - 中位数,需要了解一下
中位数
中位数是指按顺序排列后,居于中间位置的数
“
数据为奇数:位于(n+1)/ 2 位置的数为中位数
数据为偶数:位于最中间的两位数相加 / 2 为中位数
这样的数据更具有代表性
众数
众数是指出现次数最多的数值,反应的是局部特征、密集度
统计指标:离散趋势指标
上面讲完了集中趋势指标,现在来了解下什么是离散趋势指标
离散趋势指标是体现内部差异度的指标,主要有三类:极差、平均查、标准差
极差
极差体现数据内部最大的差异情况
“
极差 = 最大值 - 最小值
但是极差不能体现数据内部真正的数据差异情况,体现数据内部真正的差异情况我们使用平均差
平均差
平均差体现的是一组数据与平均值差异的平均差异
“
平均差 = |每个数据项 - 均值|的总和 / 数据项个数
数据项与平均值的差距越大,数据越分散,反之越集中
不过这里需要注意,当一组数据中存在数据异常值的时候,就容易导致误差,所以针对这种情况,就有了对离散值更敏感的标准差
标准差
标准差是相比与平均差更能代表离散程度的指标
“
标准差 = ((|每个数据项 - 均值|)平方的总和 / 数据项个数)开方
使用标准差能更直观的了解差异程度,是我们最常用的离散指标
统计指标:分布形态
分布形态指的是图表化呈现出来的形态
常见的形态有:左偏分布、右偏分布、正态分布
左偏分布:平均值是偏左的,众数(也就是峰值)是偏右的
右偏分布:平均值是偏右的,众数(也就是峰值)是偏左的
正态分布:平均值是居中的,众数(也就是峰值)是居中的
异常值
上面在介绍各类指标的时候,一直都有提到一个会影响我们判断的概念,就是异常值,那么怎么识别异常值呢?
异常值一般是指与平均值偏差极大或极小的值,也叫离群值
上面也同时提到了一般是指,这个判断标准要取决于具体分析的业务对象
“
例如:周期性的产业,比如旅游行业是有淡旺季之分的,旺季的数据通常能达到淡季的两倍以上,这样的数据就不能视为异常值
识别异常值
一般的业务数据通过观察异常值与整体数据的差距可以识别异常值
通常情况下我们采用的方法是通过计算与平均的倍数,异常值与平均值计算出来的倍数通常远大于(小于)其他数据与平均值计算出来的倍数,这样就可以简单的识别出哪些数据项是异常值了。
至于如何处理异常值,一般要看具体的业务分析
异常值判定
1、对于错误记录的异常值,直接修改为正常数据即可,例如将工资数据错误记录为负数,我们直接修改即可
2、对于错误添加的异常值,直接删除即可,例如在预处理时,将年龄数据混入了工资数据中,我们就可以直接删除了
3、对于正确、真实的异常值,这个需要根据具体业务分析,需要判断这个异常值是否反映特殊的事件。
“
例如,在基金行情的走势图中存在因为分红导致的基金走势波动大,如果我们是为了分析该基金的行情走势,那么我们就不能处理这个异常值。如果我们分析数据是为了量化交易,那么就要修改调整这个异常值
还有就是对于周期性的数据,例如上面提到的旅游数据,对于这类数据我们是不做处理的
处理异常值
1、对于错误数据,我们可以填充空值、填充样本平均值
2、对于正确、真实的数据,我们可以根据实际情况调整、数值 * 需要调整的比率
“
例如之前提供的例子中,当基金因为分红导致当天下跌了 8%,对于这样的数据,我们可以将之后的价格调整为 收盘价 *(1+0.08)
这次我们简单了解了什么是统计指标,以及异常值的简单处理,现在我们对数据分析的基础知识已经有了比较好的认识了,那么是时候体系化的了解数据分析的整体流程,为之后数据分析工具的学习打下基础了。
好了,今天的文章就到这里,我们下次再会~
上一篇文章简单学习了什么是数据,这次来看看什么是统计指标,进一步了解更多数据分析相关的基础知识。
什么是统计指标
体现总体数量特征的概念和数值
根据数据分析的目的不同,统计指标也会变化
分析招聘数据的时候:技能、薪资、岗位年限
分析用户转化率:网站浏览量、着陆页、跳失率
分析理财产品的时候:往期的业绩、风险系数、年化收益
统计指标根据他体现的内容分为两大类:总量指标,相对指标
总量指标
描述特定条件下的总规模、总水平或工作总量的指标
GDP、销售总额、总人口数
相对指标
描述的是相对关系,而不是总体情况
是指两个有联系的现象数值相比得到的比率
比例:各数据 / 总比 %
比率:数据想:数据项
倍数:突出上升、增长幅度
环比增长率(短期): (本期数 - 上期数)/ 上期数 * 100 %
同比增长率(长期):(本期数 - 同期数)/ 同期数 * 100 %
注意:环比更注重短期的涨幅表现,同比更注重长期的涨幅表现
除了以上的两大类外还有三个统计指标值得我们学习,分别是集中趋势指标、离散趋势指标、分布形态
统计指标:集中趋势指标 - 平均指标
用一个数字显示总体一般水平就为平均指标也叫集中趋势指标,最常用的集中趋势指标就是平均值
平均值 = 所有数据相加 / 数据的个数
在通常的数据处理中经常会出现异常的数据,比如数据特别大或特别小就会影响平均值,这样得出的平均值具有一定的误导性,平均值对于异常数并不敏感
我和马大大的月薪平均过亿...
正是因为这样情况,所以还有一个指标 - 中位数,需要了解一下
中位数是指按顺序排列后,居于中间位置的数
数据为奇数:位于(n+1)/ 2 位置的数为中位数
数据为偶数:位于最中间的两位数相加 / 2 为中位数
这样的数据更具有代表性
众数是指出现次数最多的数值,反应的是局部特征、密集度
统计指标:离散趋势指标
上面讲完了集中趋势指标,现在来了解下什么是离散趋势指标
离散趋势指标是体现内部差异度的指标,主要有三类:极差、平均查、标准差
极差
极差体现数据内部最大的差异情况
极差 = 最大值 - 最小值
但是极差不能体现数据内部真正的数据差异情况,体现数据内部真正的差异情况我们使用平均差
平均差
平均差体现的是一组数据与平均值差异的平均差异
平均差 = |每个数据项 - 均值|的总和 / 数据项个数
数据项与平均值的差距越大,数据越分散,反之越集中
不过这里需要注意,当一组数据中存在数据异常值的时候,就容易导致误差,所以针对这种情况,就有了对离散值更敏感的标准差
标准差
标准差是相比与平均差更能代表离散程度的指标
标准差 = ((|每个数据项 - 均值|)平方的总和 / 数据项个数)开方
使用标准差能更直观的了解差异程度,是我们最常用的离散指标
统计指标:分布形态
分布形态指的是图表化呈现出来的形态
常见的形态有:左偏分布、右偏分布、正态分布
左偏分布:平均值是偏左的,众数(也就是峰值)是偏右的
右偏分布:平均值是偏右的,众数(也就是峰值)是偏左的
正态分布:平均值是居中的,众数(也就是峰值)是居中的
异常值
上面在介绍各类指标的时候,一直都有提到一个会影响我们判断的概念,就是异常值,那么怎么识别异常值呢?
异常值一般是指与平均值偏差极大或极小的值,也叫离群值
上面也同时提到了一般是指,这个判断标准要取决于具体分析的业务对象
例如:周期性的产业,比如旅游行业是有淡旺季之分的,旺季的数据通常能达到淡季的两倍以上,这样的数据就不能视为异常值
一般的业务数据通过观察异常值与整体数据的差距可以识别异常值
通常情况下我们采用的方法是通过计算与平均的倍数,异常值与平均值计算出来的倍数通常远大于(小于)其他数据与平均值计算出来的倍数,这样就可以简单的识别出哪些数据项是异常值了。
至于如何处理异常值,一般要看具体的业务分析
1、对于错误记录的异常值,直接修改为正常数据即可,例如将工资数据错误记录为负数,我们直接修改即可
2、对于错误添加的异常值,直接删除即可,例如在预处理时,将年龄数据混入了工资数据中,我们就可以直接删除了
3、对于正确、真实的异常值,这个需要根据具体业务分析,需要判断这个异常值是否反映特殊的事件。
例如,在基金行情的走势图中存在因为分红导致的基金走势波动大,如果我们是为了分析该基金的行情走势,那么我们就不能处理这个异常值。如果我们分析数据是为了量化交易,那么就要修改调整这个异常值
还有就是对于周期性的数据,例如上面提到的旅游数据,对于这类数据我们是不做处理的
1、对于错误数据,我们可以填充空值、填充样本平均值
2、对于正确、真实的数据,我们可以根据实际情况调整、数值 * 需要调整的比率
例如之前提供的例子中,当基金因为分红导致当天下跌了 8%,对于这样的数据,我们可以将之后的价格调整为 收盘价 *(1+0.08)
这次我们简单了解了什么是统计指标,以及异常值的简单处理,现在我们对数据分析的基础知识已经有了比较好的认识了,那么是时候体系化的了解数据分析的整体流程,为之后数据分析工具的学习打下基础了。
好了,今天的文章就到这里,我们下次再会~
大数据 应用与数据集成平台 ROMA Connect 数据挖掘
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。