Hadoop之HDFS01【介绍】

网友投稿 622 2025-04-07

HDFS(Hadoop Distributed File System)分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

存储模型

假如我们有一个10T的文件要存储，而我们的硬盘空间只有1个T，那么这时候我们可以将这个10T的文件切成10个1T的文件来分别存储在10个硬盘中,HDFS的存储的原理其实也是这样的，将一个大文件进行线性切割成快(Block)然后存放在不同的服务器上，但很快你又会提出一个问题，如果一个字比如“存”在UTF-8当中占3个字节，而恰巧一个服务器存了1个字节而另外的2个字节存到了别的服务器上，这会出现我们使用的时候出现乱码，这个问题呢HDFS也帮我们解决了。后面会提到副本，相当于把文件克隆然后会进行一个修复操作。然后不同的文件分布到了不同的服务器上，所以是只允许写一次可以多次读取，那么HDFS存储模型的特点也就明显了。

上传文件指定block大小和副本数量

hadoop fs -Ddfs.replication=2 -put a.txt /

hadoop fs -Ddfs.blocksize=67108864 -put fun1.sh /

已上传的文件Block副本数可以调整，大小不变

[root@hadoop-node01 ~]# hadoop fs -setrep -w 3 /fun1.sh Replication 3 set: /fun1.sh Waiting for /fun1.sh .... done

append追加数据

hadoop fs -appendToFile b.txt /a.txt

架构模型

文件元数据MetaData，文件数据

元数据

数据本身

（主）NameNode节点保存文件元数据：单节点 posix

（从）DataNode节点保存文件Block数据：多节点

DataNode与NameNode保持心跳，提交Block列表

HdfsClient与NameNode交互元数据信息

HdfsClient与DataNode交互文件Block数据

NameNode

存储元数据(MetaData)，不存储具体的block

NameNode主要功能：

NameNode持久化

NameNode的metadate信息在启动后会加载到内存

metadata存储到磁盘文件名为”fsimage”

Block的位置信息不会保存到fsimage

edits记录对metadata的操作日志。。。

DataNode

本地磁盘目录存储数据（Block），文件形式,同时存储Block的元数据信息文件,启动DN时会向NN汇报block信息,通过向NN发送心跳保持与其联系（3秒一次），如果NN 10分钟没有收到DN的心跳，则认为其已经lost，并copy其上的block到其它DN

HDFS优缺点

优先

高容错性

数据自动保存多个副本

副本丢失后，自动恢复

适合批处理

移动计算而非数据

数据位置暴露给计算框架（Block偏移量）

适合大数据处理

GB 、TB 、甚至PB 级数据

百万规模以上的文件数量

10K+ 节点

可构建在廉价机器上

通过多副本提高可靠性

Hadoop之HDFS01【介绍】

提供了容错和恢复机制

缺点

低延迟数据访问

比如毫秒级

低延迟与高吞吐率

小文件存取

占用NameNode 大量内存

寻道时间超过读取时间

并发写入、文件随机修改

一个文件只能有一个写者

仅支持append

Hadoop

标签：分布式文件系统磁盘文件服务器

机器人操作系统ROS 2和仿真软件Gazebo 9服务进阶实战（八）- mobot行驶至目标位置">使用机器人操作系统ROS 2和仿真软件Gazebo 9服务进阶实战（八）- mobot行驶至目标位置

622 2025-04-07

HTTP 状态消息

622 2025-04-07

公众号文章汇总

622 2025-04-07

最近发表

2025年亚洲宠物展览会、京宠展有哪些亮点
wps演示添加自定义按钮设置动作改变按顺序播放" href="https://www.huoban.com/news/post/118206.html">wps演示添加自定义按钮设置动作改变按顺序播放
WPS行中的文本调整到行中" href="https://www.huoban.com/news/post/119027.html">如何将WPS行中的文本调整到行中
系统字体问题（win10系统怎么设置密码）" href="https://www.huoban.com/news/post/62643.html">WIN10系统字体问题（win10系统怎么设置密码）
格式的应用（应用文标题的格式）" href="https://www.huoban.com/news/post/63002.html">标题格式的应用（应用文标题的格式）
数据如何合并成一列，谢谢（如何将两列数据合并到一列）" href="https://www.huoban.com/news/post/71663.html">两列数据如何合并成一列，谢谢（如何将两列数据合并到一列）
无法插入表格
快递录入时间表（快递收寄时间）
项目管理流程7大过程及项目启动策略与实施要点" href="https://www.huoban.com/news/post/152389.html">项目管理流程7大过程及项目启动策略与实施要点
excel表格）" href="https://www.huoban.com/news/post/94768.html">Excel Web App团队享了如何决定功能开发的重要性公式（excel表格）

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜
进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）
在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐
WPS2016怎么绘制简单的价格表?
客户管理工具是什么？">客户管理工具是什么？
家居定制平台是什么？">家居定制平台是什么？

Hadoop之HDFS01【介绍】

机器人操作系统ROS 2和仿真软件Gazebo 9服务进阶实战（八）- mobot行驶至目标位置">使用机器人操作系统ROS 2和仿真软件Gazebo 9服务进阶实战（八）- mobot行驶至目标位置

HTTP 状态消息

公众号文章汇总

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

客户管理工具是什么？">客户管理工具是什么？

家居定制平台是什么？">家居定制平台是什么？

友情链接

Hadoop之HDFS01【介绍】

微信扫一扫：分享

机器人操作系统ROS 2和仿真软件Gazebo 9服务进阶实战（八）- mobot行驶至目标位置">使用机器人操作系统ROS 2和仿真软件Gazebo 9服务进阶实战（八）- mobot行驶至目标位置

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

客户管理工具是什么？">客户管理工具是什么？

家居定制平台是什么？">家居定制平台是什么？

友情链接