干货，图文详解 HDFS 的工作机制及其原理-伙伴云

干货，图文详解 HDFS 的工作机制及其原理

网友投稿 1558 2022-05-29

HDFS 是基于流数据访问模式的分布式文件系统（HDFS放宽了一部分 POSIX约束，来实现流式读取文件系统数据的目的），支持存储海量的数据，可以运行在低成本的硬件上。其提供高吞吐量、高容错性的数据访问，非常适合大规模数据集上的应用。了解 HDFS 的工作机制，可以加深我们对分布式系统的理解，以及增强遇到问题时的分析解决能力，以下介绍下 HDFS 的工作机制。

如果想了解 HDFS ，可以参考这篇文章：HDFS 及其组成框架介绍。

一、机架感知

机架感知的设计，考虑到两个方面：

不同节点之间的通信，希望在同一机架内进行（Hadoop集群会分布在很多机架上），而不是跨机架；

为了提高容错能力，NameNode （名称节点）会尽可能把数据块的副本放在多个机架上。

DataNode 的网络拓扑图如下：

如上图，D1、R1是交换机，最底层是 DataNode 。可执行脚本文件返回各 DataNode 的机架 ID ，即 RackID（比如，H1 的 parent 是R1，R1的 parent 是D1，则 H1 的 RackID=/D1/R1/H1）。

有了这些 RackID 信息，就可以计算任意两台 DataNode 之间的距离了：

distance(/D1/R1/H1,/D1/R1/H1)=0 //相同的 DataNode distance(/D1/R1/H1,/D1/R1/H2)=2 //同一个 Rack 下不同的 DataNode distance(/D1/R1/H1,/D1/R1/H4)=4 //同一 IDC 下不同的 DataNode distance(/D1/R1/H1,/D2/R3/H7)=6 //不同 IDC 下的 DataNode

~IDC是互联网数据中心，可以理解为机房。~

默认情况下，HDFS 不能自动判断集群中各个 DataNode 的网络拓扑情况，集群默认都处在同一个机架名为 /default-rack的机架上（在这种情况下，任何一台 DataNode 机器，不管在物理上是否是属于同一个机架，都会被认为是在同一个机架下）。

通常，我们通过外在脚本实现机架感知，需要配置 net.topology.script.file.name属性（属性值一般是一个可执行脚本文件的路径）。脚本接收一个值，再输出一个值（一般都是接收 IP地址，输出这个地址所对应的机架信息）。

二、副本冗余存储策略

HDFS 上的文件对应的数据块保存有多个副本（默认保存3个副本），且提供容错机制，副本丢失或宕机（即死机）时自动恢复。

下面，以保存 3个副本为例：

第一个副本（副本一）：放置在上传文件的数据节点上（若是在集群外提交，则随机挑选一个 CPU比较空闲、磁盘不太满的节点）。

第二个副本（副本二）：放置在与第一个副本不同的机架的节点上。

第三个副本（副本三）：放置在与第二个副本相同机架的其他节点上。

如果有更多副本，那么这些副本随机选择节点存放。

需要注意的是，副本并不都是均匀分布在不同的机架上。

副本冗余存储策略，主要有三个优点：

减少了机架间的数据传输，提高了写操作的效率。（不会影响数据的可靠性和可用性，因为机架的错误远远比节点的错误小）

减少了读取数据时所需的网络传输总带宽。（因为数据块只放在两个不同的机架上）

干货，图文详解 HDFS 的工作机制及其原理

在不损害数据可靠性和读取性能的情况下，改进了写操作的性能。（一个副本在一个机架的一个节点上，另外两个副本在另一个机架的不同节点上，其他副本则均匀分布在剩下的机架中。如 2.1 所介绍。）

三、文件传输过程

在 HDFS 中读写数据的过程都是通过数据流完成的。HDFS 提供了数据流的 I/O操作类（包括 FSDataInputStream 和 FSDataOutputStream ）

HDFS 文件读取（即数据下载）过程如图所示：

⑴ HDFS 客户端通过 DistributeFileSystem 对象的 open() 方法打开需要读取的文件。

⑵ DistributeFileSystem 向远程的 NameNode 节点发起 RPC调用，得到文件的数据块信息，返回数据块列表。（对于每个数据块，NameNode 返回该数据块的 DataNode 地址）

⑶ DistributeFileSystem 返回一个 FSDataInputStream 对象给客户端，客户端调用 FSDataInputStream 对象的 read() 方法读取数据。

⑷ 通过对数据流反复调用 read() 方法，把数据从数据节点传输到客户端。

⑸ 当一个节点的数据读取完毕时， DFSInputStream 对象会关闭与此数据节点的连接，然后连接此文件下一个数据块的最近数据节点。

⑹ 当客户端读取完数据时，调用 FSDataInputStream 对象的 close() 方法关闭输入流。

FSDataInputStream 输入流类的常用方法：

pos 指定从输入流中读取数据的位置；offset 指定数据写入缓冲区的位置（偏移量）；len 指定读操作的最大字节数。

HDFS 文件写入（即数据上传）过程如图所示：

⑴ 客户端调用 DistributedFileSystem 对象的 create() 方法创建一个文件输出流对象。

⑵ DistributedFileSystem 对象远程的 NameNode 节点发起一次 RPC调用，NameNode 检查这个文件是否存在，以及客户端是否有权限新建文件。

⑶ 客户端调用 FSDataOutputStream 对象的 write() 方法写数据（数据鲜卑写入缓冲区，再被切分为一个个数据包）。

⑷ 每个数据包被发送到由 NameNode 节点分配的一组数据节点中的一个数据节点上，在这组数据节点组成的管道上依次传输数据包。

⑸ 管道上的节点按反向顺序返回确认信息，最终由管道的第一个数据节点将整条管道的确认信息发送给客户端。

⑹ 客户端完成写入，调用 close() 方法关闭文件输出流。

⑺ 通知 NameNode 文件写入成功。

FSDataOutputStream 输入流类的常用方法：

len 指定读操作的最大字节数。

四、数据容错

HDFS 能够在出错的情况下，保证数据存储的可靠性。常见的出错情况有 NameNode 节点出错、DataNode 节点出错和数据出错这三种情况。

HDFS 中所有元数据都保存在 NameNode （名称节点）上，NameNode 节点维护 edits 和 fsimage 这两个文件。（如果这两个文件损坏，HDFS 就会失效）

Hadoop 提供了两个机制，来确保 NameNode 的安全：

把 NameNode 节点上的元数据信息同步存储到其他文件系统（比如 NFS ），当 NameNode 出现故障时，HDFS 自动切换到备用的 NameNode 上（HDFS HA ，就是采用共享存储系统来存储 edits 的）。

运行一个 SecondaryNameNode 节点，当 NameNode 宕机时，利用 SecondaryNameNode 的元数据信息进行系统恢复（仍然会有部分数据丢失）。

通常，这两个方法结合使用。

NameNode 通过心跳信号来检测近期不发送心跳信号的 DataNode，并将其标志为宕机（每个 DataNode 周期性地向 NameNode 发送心跳信号），不再发送新的 I/O请求给它们。

数据块需要重新复制的情况：

某个 DataNode 节点丢失；

DataNode 上的硬盘出错；

某个副本损坏；

某个数据块的副本系数低于设定值。

从 DataNode 获取的数据块，有可能本身就是损坏的（比如可能是因为网络错误、软件bug 或者 DataNode的存储设备错误）。

HDFS 使用校验和来判断数据块是否损坏。HDFS 的每个 DataNode 节点，保存了检测校验的日志（客户端的每一次检验都会被记录）。

BigData Pro 大数据大数据

excel表格如何固定标题图文教程（excel表格怎么设置标题固定）

1558 2022-05-29

干货，图文 详解 HDFS 的工作机制及其原理

绝对干货 excel中一对多查找问题解决思路汇总附公式模型

excel表格如何固定标题图文教程（excel表格怎么设置标题固定）

excel表格设置锁定单元格图文教程（Excel表格怎么锁定单元格）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

定制订单管理系统（为特定需求定制的订单管理系统）

客户管理工具是什么？

友情链接

干货，图文详解 HDFS 的工作机制及其原理

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接