萌新带你入门大数据之Hadoop简介-伙伴云

萌新带你入门大数据之Hadoop简介

网友投稿 751 2022-05-29

一、什么是Hadoop

1、Hadoop是什么

（1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构

（2）主要解决海量数据的存储和海量数据的分析计算问题

萌新带你入门大数据之Hadoop简介

（3）广义上来说，Hadoop通常是指一个更广泛的概念–Hadoop生态圈

2、Hadoop发展历史：

（1）Lucene框架是Doug Cutting开创的开源软件，用Jav a书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎。

（2）2001年年底Lucene成为Apache基金会的一个子项目。

（3）对于海量数据的场景，Lucene面对与Google同样的困难，存储数据困难，检索速度慢。

（4）学习和模仿Google解决这些问题的办法︰微型版Nutch。

（5）可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文)

（6）2003-2004年，Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和口MapReduce机制，使Nutch性能飙升。

（7）2005年Hadoop 作为Lucene的子项目Nutch的一部分正式引入Apache基金会。

（8）2006年3月份，Map-Reduce和Nutch Distributed File Systerm (NDFS)分别被纳入到Hadoop项目中，Hadoop就此正式诞生，标志着大数据时代来临。

3、Hadoop三大发行版本

Apache：最原始版本，对于入门学习最好

Cloudera（CDH版）：在大型互联网企业中用的较多

Hortonworks：文档较好，收费

二、Hadoop优势

1、Hadoop优势（4高）

（1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失

（2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点

（3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度

（4）高容错性：能够自动将失败的任务重新分配

2、Hadoop的组成

Hadoop1.x：Common(辅助工具)、HDFS(数据存储)、MapReduce(计算+资源调度)

Hadoop2.x：Common(辅助工具)、HDFS(数据存储)、MapReduce(计算)、Yarn(资源调度) ----> 模块化，解耦

在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大，在Hadoop2.x时代，增加了Yarn，Yarn只负责资源的调度，MapReduce只负责运算。

（1）NameNode(nm)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等

（2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和

（3）Secondary NameNode(2nm)：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照

（1）ResourceManager(RM)：整个集群资源节点的老大，处理客户端请求，监控NodeManager，启动或监控ApplicationMaster，资源的分配与调度

（2）NodeManager(NM)：单个节点资源的老大，管理单个节点上资源、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令

（3）ApplicationMaster(AM)：负责数据的切分、为应用程序申请资源并分配给内部的任务、任务的监控与容错

（4）Container：是Yarn中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等

MapReduce将计算过程分为两个阶段：Map和Reduce

（1）Map：阶段并行处理输入数据 -->（分）

（2）Reduce：对Map结果进行汇总 -->（合）

3、大数据技术生态体系

（1）数据来源层：数据库（结构化数据）、文件日志（半结构化数据）、视频、PPT等（非结构化数据）

（2）数据传输层：Sqoop数据传递、Flume日志收集、Kafka消息队列

（3）数据存储层：HDFS文件存储、HBase非关系型数据库

（4）资源管理层：Yarn资源管理

（5）数据计算层：MapReduce离线计算(Hive数据查询、Mahout数据挖掘)、Spark Core内存计算(Mahout数据挖掘、Spark Mlib数据挖掘、Spark R数据分析、Spark Sql数据查询、Spark Streaming实时计算)、Storm实时计算

（6）任务调度层：Oozie任务调度、Azkaban任务调度

（7）业务模型层：业务模型、数据可视化、业务应用

Hadoop 大数据

Excel函数如何入门给20个学生的成绩做一个等级的评定你会吗（excel各种函数的使用步骤）

751 2022-05-29

萌新带你入门大数据之Hadoop简介

《Office 2013快速入门指南》简体中文版下载（暂未上线）（office是什么意思）

Office 2016 快速入门指南下载（暂未上线）（office办公软件）

Excel函数如何入门给20个学生的成绩做一个等级的评定你会吗（excel各种函数的使用步骤）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

智能定制家居管理系统：重新定义家庭生活方式

友情链接

萌新带你入门大数据之Hadoop简介

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接