掌握excel线性回归技巧助力数据分析与决策优化
1003
2022-06-22
无论是产品还是运营,数据分析都是其日常工作中不可忽略的一个板块,但是新手小白该从哪个点切入进行数据分析,数据分析的整体流程框架又该如何搭建呢?
首先,需要先确定数据分析框架的大纲,将业务数据分析分成五大步骤,分别是:数据生成、数据处理、数据建模、数据分析和数据应用。
用户从进入网站开始,每一步的行为操作都会生成对应的后台数据,我们可以将这些数据大体分为三类:用户数据、行为数据和业务数据。用户数据和行为数据可以直接从网站后台获取,业务数据则一般需要公司内部搭建。
以支付业务为例,用户在完成支付后,会形成两张核心表格:订单表和交易表,一笔订单可能对应多笔交易(选择不同的订单支付方式)。
后台获取的数据一般都是非结构化数据,因此在进行分析之前需要将数据通过清洗转换、空值处理等转化为结构化数据,为后续的数据分析打下良好的基础。
系统可以通过系统自带的中间表、数据转换等功能协助用户实现大部分数据处理的需求,相当于一个轻量级的ETL工具,因此无需再通过其他第三方工具进行数据处理。
所有数据进到数仓以后,需要根据实际待分析的业务数据进行数据建模。
为什么要进行数据建模?
那是因为在庞大的数据仓库中,数据一般都会按照其涉及的业务,储存在不同的数据表中,例如用户数据存储在用户基本信息表,用户在网站的操作存储在用户行为表,订单数据存储在日销售订单表等。但涉及数据分析时,需要提取所有的数据进行合并分析,因此需要将数据通过建模,关联起来,将多个表的数据连接起来,一同进行数据分析。
除了添加表与表之间的关联关系,我们还需要对数据字段进行一个基础分类,添加属性和度量字段:
属性(Attribute)
度量(Measures)
在统计学定义上,数据可以分为离散型和连续型。在数据分析过程中,离散型对应属性,用来代表有限数量的值,例如产品名称、产品类别等;连续性对应度量,无法例举变量值,例如销售额、销量等。
系统会自动将数据表的列名字段划分成对应的属性列和度量列。
有了维度和度量的概念后,我们需要在数据分析阶段引入聚合概念。聚合,简单来说就是将数据源中的多行数据按照一定的规则合并计算为一个数据。因为对于查看数据的人来说,他们往往会更关注数据的总体态势。
系统预置了最常见的集中聚合规则,
如:
求和:sum(列名)
计数:count(列名)
计数去重:uniqe_count(列名)
求平均值:average(列名)
选择对应的聚合方式,数据结果会按照其对应的维度自动进行聚合运算。
最后,可以将得到的结果按照可视化图表或数据看板的方式进行展现,实时监控,寻找异常数据或成功的机会。
数据从用户中来,通过一系列的数据沉淀、处理和分析找出机会点做决策再回到用户中去,提升用户体验,带动业务增长,此即为数据驱动业务。
本篇文章的重点是介绍了数据分析的大体流程框架以及每个步骤设计的功能点,但是如何搭建数据指标体系以及具体的指标案例等还没有涉及。
数据分析需要学哪些
数据分析师是数据师Datician['detɪʃən]的一种,指的是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。
第一:统计学知识。这是很大一部分大数据分析师的短板。当然这里说的不是简单的一些统计而已。而是包括均值、中位数、标准差、方差、概率、假设检验等等具有时间、空间、数据本身。差不多应该是理工科的高等数学的知识,甚至还高一点儿。要能够建模,要不然你分析出来的结果离实际相差十万八千里的话,估计要不了几天,你就会被卷铺盖走人了。当然,做个一般的大数据分析师,就不会涉及到很深的高等数学知识了,但要做一个牛B的大数据分析师,还是要学习学习再学习。
第二:很多人想不到的,你还是把EXCEL玩熟悉吧。当然不需要掌握的高大全,也得要掌握常用的函数,比如重点包括但不限于sum,count,sumif,countif,find,if,left/right,时间转换,透视表,各种图表做法等之类的。如果数据量不算是特别大的话,Excel能够解决很多问题。比如,筛选部分赃数据,排序,挑选满足条件的数据等等。
第三:分析思维的练习。比如结构化思维、思维导图、或百度脑图、麦肯锡式分析,了解一些smart、5W2H、SWOT等等那就更好了。不一定要掌握多深多全,但一定要了解一些。
第四:数据库知识。大数据大数据,就是数据量很多,Excel就解决不了这么大数据量的时候,就得使用数据库。如果是关系型数据库,比如Oracle、mysql、sqlserver等等,你还得要学习使用SQL语句,筛选排序,汇总等等。非关系型数据库也得要学习,比如:Cassandra、Mongodb、CouchDB、Redis、 Riak、Membase、Neo4j 和 HBase等等,起码常用的了解一两个,比如Hbase,Mongodb,redis等。
第五:业务学习。其实对于大数据分析师来说,了解业务比了解数据更重要。对于行业业务是怎么走的对于数据的分析有着非常重要的作用,不了解业务,可能你分析的结果不是别人想要的。
第六:开发工具及环境。比如:Linux OS、Hadoop(存储HDFS,计算Yarn)、Spark、或另外一些中间件。目前用得多的开发工具Java、python等等语言工具。
第一位:应用数学
应用数学,是利用数学方法解决实际问题的一门学科,在经济金融、工程科技等领域都有应用。本专业主要学习数学和应用数学的基础理论、基本方法,受到数学模型、计算机和数学软件方面的基本训练,具有较好的科学素养。
第二位:计算机相关专业
近年来企业招的数据分析师,其实大部分应该叫:数据程序员。基本上都是进公司跑数据的,不做啥“分析”,因此计算机相关专业会有优势。毕竟写代码写的多吗。数据仓储,算法这些就更依赖开发能力,这本来就是计算机专业的范畴。
第三位:市场营销、企业管理专业
实际上,真要做分析的话,需要懂商业知识+有分析思路,这一点文科生会更擅长。而且市场营销、企业管理等专业一定会学市场调查。
因此对于数据处理、数据分析的基本操作是了解的。未来走咨询、数据运营、数据分析、市场研究、行业研究的路线是很OK的。
第四位:心理学、社会学
不要小看这两个专业,这两个专业对于数据的应用能力绝对远远超过上边三个专业。知乎著名数据大V chenqin就是搞社会学的,那数据分析能力压倒一大堆只会跑数的表哥。
心理学里提假设、设计实验、采集数据、验证假设的思路,就是数据分析的思路,一毛一样。因此这两个专业的数据部门领导还挺多的。
第五位:统计学
和应用数学相反,这是个被名字拖累的专业。人们往往惧怕数学,但一听统计就觉得:好一般哦。是不是就是掰指头数数的。
严重低估了统计学的专业性。其实统计学是很适合做数据相关工作的。学统计的同学们思路活跃一点哦。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。