大数据——Hadoop 2.x 生态系统及技术架构图

网友投稿 667 2022-05-28

一、负责收集数据的工具:

Sqoop(关系型数据导入Hadoop)

Flume(日志数据导入Hadoop,支持数据源广泛)

Kafka(支持数据源有限,但吞吐大)

二、负责存储数据的工具:

HBase

MongoDB

Cassandra

Accumulo

MySql

Oracle

DB2

HDFS(Hadoop Distribut File System)2.0

三、底层组件

Apache Common(通用模块)、

Avro(序列化成二进制)、

OS(Linux、windows。。。)

四、通用工具

Zookeeper分布式协作服务

Oozie工作流流调度系统

Ambari图形化部署、非xml,跟踪集群状态

五、分布式计算框架

MapReduce(通过磁盘离线计算)

Spark(通过内存实时计算)

Storm(实现流式数据计算)

Tez(GAG计算,对MR拆分)

Impala(实现实时交互式计算)

Flink、Slider、Open MPI

HCatalog

YARN(跨集群资源调度管理)以上各种计算框架架构在YAEN上,H2.0引入

六、数据分析处理

Hive数据仓库

sql语句生成MR作业

Pig工作流引擎

类似sql比MR语法简单

Mahout数据挖掘库

提供了诸多机器学习算法

Java、.net

R、Scala、Solr

Impapla、Ohter ISV

七、结果输出

经过数据分析处理,输出到BI工具、展示系统

大数据——Hadoop 2.x 生态系统及技术架构图

ETL Tools

BI Reporting

RDBMS

OLAP

Hadoop 大数据

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:2020-05-18:MYSQL为什么用B+树做索引结构?平时过程中怎么加的索引?
下一篇:083《APK Downloader for Google Play Store》从谷歌商店获取apk安装包
相关文章