Hadoop的理解

网友投稿 802 2025-04-01

什么是Hadoop？

Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。用函数式变成Mapreduce代替SQL，SQL是查询语句，而Mapreduce则是使用脚本和代码，而对于适用于关系型数据库，习惯SQL的Hadoop有开源工具hive代替

1.1小故事：

小明接到一个任务：计算一个100M的文本文件中的单词的个数，这个文本文件有若干行，每行有若干个单词，每行的单词与单词之间都是以空格键分开的。对于处理这种100M量级数据的计算任务，小明感觉很轻松。他首先把这个100M的文件拷贝到自己的电脑上，然后写了个计算程序在他的计算机上执行后顺利输出了结果。

后来，小明接到了另外一个任务，计算一个1T（1024G）的文本文件中的单词的个数。再后来，小明又接到一个任务，计算一个1P(1024T)的文本文件中的单词的个数……

面对这样大规模的数据，小明的那一台计算机已经存储不下了，也计算不了这样大的数据文件中到底有多少个单词了。机智的小明上网百度了一下，他在百度的输入框中写下了：大数据存储和计算怎么办？按下回车键之后，出现了有关hadoop的网页。

看了很多网页之后，小明总结一句话：hadoop就是存储海量数据和分析海量数据的工具。

1.2、稍专业点的解释

Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。

HDFS是一个分布式文件系统：引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。

MapReduce是一个计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算/Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。

1.3、记住下面的话：

hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

把HDFS理解为一个分布式的，有冗余备份的，可以动态扩展的用来存储大规模数据的大硬盘。

把MapReduce理解成为一个计算引擎，按照MapReduce的规则编写Map计算/Reduce计算的程序，可以完成计算任务。

Hadoop的理解

Hadoop能做什么？

Hadoop MapReduce

标签：分布式文件系统大规模服务器

机器人操作系统ROS 2和仿真软件Gazebo 9服务进阶实战（八）- mobot行驶至目标位置">使用机器人操作系统ROS 2和仿真软件Gazebo 9服务进阶实战（八）- mobot行驶至目标位置

802 2025-04-01

微吼云上线多路互动直播服务加速多场景互动直播落地

802 2025-04-01

HTTP 状态消息

802 2025-04-01

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜
进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）
在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐
WPS2016怎么绘制简单的价格表?
Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理
客户管理工具是什么？">客户管理工具是什么？

Hadoop的理解

机器人操作系统ROS 2和仿真软件Gazebo 9服务进阶实战（八）- mobot行驶至目标位置">使用机器人操作系统ROS 2和仿真软件Gazebo 9服务进阶实战（八）- mobot行驶至目标位置

微吼云上线多路互动直播服务加速多场景互动直播落地

HTTP 状态消息

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

客户管理工具是什么？">客户管理工具是什么？

友情链接

Hadoop的理解

微信扫一扫：分享

机器人操作系统ROS 2和仿真软件Gazebo 9服务进阶实战（八）- mobot行驶至目标位置">使用机器人操作系统ROS 2和仿真软件Gazebo 9服务进阶实战（八）- mobot行驶至目标位置

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

客户管理工具是什么？">客户管理工具是什么？

友情链接