这样才算数据分析,做好数据分析,你需要建立的数据思维

Oden 554 2022-07-02

编辑导语:数据分析是让很多职场人头疼的一个话题,一张简简单单的图片上有几条曲线,不知道该从何处下手进行分析。这篇文章作者从七个方面手把手教我们如何做数据分析,一起来看看吧。

经常有同学抱怨,在公司里,总被催着问:通过数据,你看到了什么?可实际数据就几个曲线而已,也不知道咋解读。也没有人教,自己好不容易写了几句,又被嫌弃:“你这都是废话,我们要深层次含义”。咋办?

今天系统解答一下。就举个最简单的例子,下边是某公司一周销量数据,你看到了什么?


一、错误的数据解读示例

1. 高了表扬低了骂

数据解读,写的是:周一到周五很高,周六、周日低,所以要!搞!高!……这么解读当然会被说:你这都是废话啊!业务又不是瞎子,看不到数字是周六日低吗。

2. 哪里跌了哪搞高

因为周六跌了48%,所以要搞高……这个是废话*2和上一种说法是一个模子里刻出来的。

3. 加减乘除算不停

平均值95.2,最大值125,最小值35……这个是废话*3。平均95.2所以呢?最大值125所以呢?这还是在把数字复述一遍而已,没有讲出任何含义。

二、解读的关键是理清业务含义

以上三种错误的共同点,是:就数论数,止于数据。没有读出数据背后的业务意义。其实数据解读一点都不高深,我们每月每天都在用,比如:


业务部门做决策也一样。他们想听的是:不划算、不喜欢、买不起。他们更想听的是:“今天中午预算只有人均50,在这家川菜馆既管饱又好吃”,他们想听的绝不是“2公里内共28家餐厅,平均价格63元,最高价725元,最低价13元,较上个月价格提升了10%”——这真的是一点意义都没有。

想要得出这种判断,需要三个条件:

了解数据代表的现实含义了解数据大小代表的现实区别明确判断标准比如大众点评上饭店人均金额185元。它不是一个孤零零的数字,而是填肚子的成本,这是人均金额的现实含义。成本低了可以接受,高了就吃不起,这是数据大小的现实区别。比如我一个月餐费预算只有3000块,意味着每天只有100块钱,这就有了标准。那这一顿185,明天就得吃土了。这就形成了判断:太贵了,得换个地方。

解读企业数据也如此,不能只见数据,不见业务。同样三点:

业务含义:数据反映的是什么业务业绩走势:通过数据形态,解读业务发展走势判断标准:到底什么算好,什么算不好下边我们一个个看一下。

三、从理解业务含义开始

回到开头的例子,“销售业绩”这个指标本身有很多含义。

直接含义:销售队伍的努力程度销售业绩+成本:企业的盈利情况销售业绩+产品:产品畅销程度销售业绩+用户分层:用户的需求销售业绩+库存:产品进销存管理质量但是注意:这里并没有标准,因此无法判断是好是坏。这也是为什么直接下结论“业绩低了要搞高”是非常错误的行为。销售业绩直观反映的是销售队伍的努力程度,想知道这个数值是好是坏,我们可以直接去问“销售队伍的KPI达标了多少?”;也可以从业绩曲线走势来判断。这就需要做第二步:观察业绩走势。

四、观察业绩走势

一个问题:“什么样的产品会卖出这种曲线?”因为有七天的数据,所以可能代表了三种走势:

1. 这是自然周期性变化

七天代表了一周,周一到周五是工作日,周六周日是休息日,所以这是一个工作日销售多,休息日没销售的产品——是滴,你很自然联想到,这可能是B2B的交易,工作日上班了才有大把生意,周日都休息了。或者是围绕B2B的衍生生意,比如CBD的餐厅一类。

2. 这是生命周期性变化

有可能某个主打商品销售到了生命周期末尾,正在退市,下一款新品马上要上,暂时变化。注意,一般看生命周期数据,是从生命周期开始做T+N天的图来看,不是看自然日。

3. 这是突发性变化

有可能刚好周六日出了问题,交易系统down机,有可能刚好促销活动到周六日结束,有可能刚好周六日恶劣天气。

通过对走势的判断,可以建立初步的标准。如果是周期性变化,那很有可能是正常波动,我们初步判定为“正常”。如果是突发+下跌,那很有可能是异常且坏的波动,我们可以初步判定为“问题”。有了标准,就能下判断,只是三种假设都有可能,需要进一步验证。

五、列出假设做验证

想知道自己思考得对不对,就得去验证假设。验证假设的办法有两种:

第一,可以和业务部门沟通,了解实际情况。

第二,可以参考过往数据,验证判断,同时反向验证业务部门是不是撒谎了。

数据验证可以做得很复杂,但也能做得很简单。不需要很复杂的逻辑,只要一根曲线就够了。如下图。


只要延长时间,靠一根业绩走势+业务表现,也可以解读出变化的原因。如果过往一直都是有周期性波动,那拉长时间就能看出来周期规律。

实际企业经营中,也经常出现上边三种情形,只是形态更复杂,往往是三种混合。比如B2C零售和B2B销售是反着的:

自然周期性:周五到周日高,其他工作日低;生命周期性:新品上市到下市有季节性规律突发事件:大促销(猛涨)恶劣天气(猛跌)在看数据的时候,往往会在业绩曲线上打上标签,比如一个日期是否节假日,是否某重点产品生命周期结束,是否突发情况。这样,可以从看似无规律的曲线里区分出规律来。

这也是为啥很多经验丰富的业务人员,即使没有专门的数据分析,也能快速判断形势的原因,因为他们很了解业务上发生了啥事,了解过往业绩曲线形态,结合业务表现看走势,比盲目地算同比、环比、平均数,中位数要有用得多。

六、深入细节看问题

做完上一步,只是帮大家理解了数据含义,并没解答什么问题。如果止于上一步,就会变成业务的应声虫:“业绩下降是因为下大暴雨了”“这是正常波动,周末肯定要跌啦”……只是单纯地这么解读,很有可能会换来一句:“我早知道了”。

实际上,往往人们都会注意到突发疾病,容易缺失的是对慢性病的观察。比如下图:


如果只看日数据,会感觉似乎每天波动不大,只能略微感到月头比月尾似乎高那么一点,但是如果拉长看周数据,就会发现问题。

为什么在业绩好的月份,最后一周不冲刺业绩了?上月业绩好+月底不冲刺+本月开局格外好,这个曲线走势不和规律,很有可能是这就是B2B销售中的“藏业绩”行为。

这时候,做数据分析的也能对一线业务说:我早知道了。甚至还能从下个月初吐出多少单,反推出来他们每个人藏了多少业绩。

这也是为啥实际企业经营中,我们不止看孤零零一个数,而是搭一个数据指标体系,还要做日报、周报、月报的原因。

日报用来关联业务动作,反应突发问题,周报和月报用来追踪趋势,发现更深层次的问题。深层次的问题,再由专题分析解决。这样就构成了数据分析体系,系统化作战,才有威力。

当然,实际分析场景会更复杂。有可能经过数据解读,我们得出的是:“销售在藏单,真实业绩比数据体现的更好”这种结论,但到底是不是藏了,真实的又是多少,还得成立专项,深入分析。

但无论如何,我们都比只回复一句:“要搞高!”要进步了很多,也能赢得业务的尊重。

七、解读数据是个硬技能

有同学会说:既然让数据分析师自己猜这么难,为什么不直接沟通业务的需求呢?是滴,理论上最佳的状态,是业务和数据之间有定期沟通,业务陈述需求,数据反馈结论。

不过大部分企业,这个状态不存在。大部分企业都是大家各忙各的,数据忙于爬表出数应付日常各种报表,业务忙着干活撕逼。部门之间深沟高垒,几乎没有沟通,越大的公司越是如此。

再加上,很多人对数据分析本身认识不清,还停留在“一个仙风鹤骨的道长掐指一算,口出出惊世憾俗之言”的印象中。

这些共同作用导致了文章开头的问题,因此数据分析师不能单纯指望业务把什么问题都梳理好了丢给自己,还是得有主动解读的能力的。



无论是产品还是运营,数据分析都是其日常工作中不可忽略的一个板块,但是新手小白该从哪个点切入进行数据分析,数据分析的整体流程框架又该如何搭建呢?



今日内容要点以支付业务为例,简单介绍业务数据分析框架的搭建过程,用到的数据分析工具是DataFocus系统。



首先,需要先确定数据分析框架的大纲,将业务数据分析分成五大步骤,分别是:数据生成、数据处理、数据建模、数据分析和数据应用。



1.数据生成



用户从进入网站开始,每一步的行为操作都会生成对应的后台数据,我们可以将这些数据大体分为三类:用户数据、行为数据和业务数据。用户数据和行为数据可以直接从网站后台获取,业务数据则一般需要公司内部搭建。



以支付业务为例,用户在完成支付后,会形成两张核心表格:订单表和交易表,一笔订单可能对应多笔交易(选择不同的订单支付方式)。



2.数据处理



后台获取的数据一般都是非结构化数据,因此在进行分析之前需要将数据通过清洗转换、空值处理等转化为结构化数据,为后续的数据分析打下良好的基础。



系统可以通过系统自带的中间表、数据转换等功能协助用户实现大部分数据处理的需求,相当于一个轻量级的ETL工具,因此无需再通过其他第三方工具进行数据处理。




3.数据建模



所有数据进到数仓以后,需要根据实际待分析的业务数据进行数据建模。



为什么要进行数据建模?



那是因为在庞大的数据仓库中,数据一般都会按照其涉及的业务,储存在不同的数据表中,例如用户数据存储在用户基本信息表,用户在网站的操作存储在用户行为表,订单数据存储在日销售订单表等。但涉及数据分析时,需要提取所有的数据进行合并分析,因此需要将数据通过建模,关联起来,将多个表的数据连接起来,一同进行数据分析。




除了添加表与表之间的关联关系,我们还需要对数据字段进行一个基础分类,添加属性和度量字段:



属性(Attribute)



度量(Measures)



在统计学定义上,数据可以分为离散型和连续型。在数据分析过程中,离散型对应属性,用来代表有限数量的值,例如产品名称、产品类别等;连续性对应度量,无法例举变量值,例如销售额、销量等。



如下图的截图所示,DataFocus系统会自动将数据表的列名字段划分成对应的属性列和度量列。




4.数据分析



有了维度和度量的概念后,我们需要在数据分析阶段引入聚合概念。聚合,简单来说就是将数据源中的多行数据按照一定的规则合并计算为一个数据。因为对于查看数据的人来说,他们往往会更关注数据的总体态势。



系统预置了最常见的集中聚合规则,



如:



求和:sum(列名)



计数:count(列名)



计数去重:uniqe_count(列名)



求平均值:average(列名)



选择对应的聚合方式,数据结果会按照其对应的维度自动进行聚合运算。




5.数据应用



最后,可以将得到的结果按照可视化图表或数据看板的方式进行展现,实时监控,寻找异常数据或成功的机会。



数据从用户中来,通过一系列的数据沉淀、处理和分析找出机会点做决策再回到用户中去,提升用户体验,带动业务增长,此即为数据驱动业务。




版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:流程管理软件有什么,项目流程管理软件有哪些
下一篇:数据协同是什么?数据协作三大误区
相关文章