说说数据那些事

网友投稿 660 2022-05-29

说说数据那些事

今天来说说我做数据这些年的一些感悟和体会,希望能够讲的通俗易懂,化繁为简,给刚入门的小伙伴一些帮助。

数据,是当今世界很重要也很值钱的东西,从哪里来,怎么处理,到哪里去,这是要弄清楚的最基本路线图,本文分着3个部分来分别讲解。

1.从哪里来

数据从哪里来的呢,从业务系统(网站浏览、、评论等交互数据)、app、小程序、邮件系统等等系统产生,存储在关系型或菲关系新数据库中,或者直接落地磁盘,等待被拖走,然后进行下一步处理。

目前数据接入的方式有很多,比如flume监控日志,sqoop离线从数据库导数据到目的端,canal、dbz监控数据库binlog获取最新增删改的实时数据等。

2.怎么处理

在数据领域,处理数据就是将业务数据按照规范进行格式化、统一化,利用现有的技术手段,进行数据加工转换,变成我们想要的东西,然后进行数据分析、数据挖掘等,提供价值信息。

那么现在的java python均可作为数据处理的语言选择,利用处理引擎mr、spark、flink进行批量并行处理,大数据的分而治之思想就是在大量数据处理的时候找到的。

大数据时代,如何从大量的数据中抽取出我们想要的价值数据,就需要分而治之的思想,并行处理,能够大大利用现在廉价的机器资源,并且很重要的一点就是,如何进行数据筛选,如果在处理计算之前,过滤掉大部分数据,就会减少处理时间,提高数据响应度。

3.到哪里去

数据去哪里,就是我们如何利用这些规范化的数据,去分析、挖掘,找到我们想要的数据,想要的数据,如何展示,以图表?文件?excel?方式呈现在需求方呢,这就是数据的去向。数据去向在数据仓库中就是app或者数据集市层,对外以api、表、图的形式对外提供数据服务。

那么为了更好地提供数据服务,我们应该做好数据处理才行,于是就有了数据模型,一个好的模型,可以在同一个业务范围内,提供统一标准化的数据,也规范了统计口径,对下游使用方来说,减少了不必要的口径问题,也提供了好用的数据,这就是数据模型的作用,在数据处理阶段的重要职责。

数据库

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Java进阶学习感悟丨【奔跑吧!JAVA】
下一篇:虚拟机环境搭建之vagrant
相关文章