HDFS分布式文件系统学习（3）-伙伴云

网友投稿 778 2022-05-30

HDFS分布式文件系统学习（3）

1.1.3 HDFS联邦

HDFS的联邦，可以简单理解为多个HDFS集群聚合到一起，更准确的理解是有多个NameNode节点的HDFS集群。当集群大到一定程度之后，NameNode进程使用的内存可能会达到上百G，NameNode成为了性能的瓶颈。与此同时，单Active NameNode中维护的元数据都在同一个命名空间中，集群中所的应用程序无法很好地隔离。一个程序操作元数据可能会影响其他运行的程序。

在HDFS联邦中，有多个联合但却相互独立的NameNode，使得HDFS的命名空间可以进行水平拓展。每个NameNode维护着属于自己的命名空间卷，包含命名空间的元数据和一个数据块池(block pool)组成，block pool管理着该命名空间下文件的所有数据块。block pool允许一个命名空间在不通知其他NameNode的情况下为一个新的数据块创建一个BlockID，这样在DataNode向集群中所有NameNode汇报数据块的情况下，每一个命名空间只管理属于自己的一组数据块信息。也因此一个NameNode的服务中断并不会影响其他NameNode中数据的可用性。每个NameNode只负责整个HDFS集群中部分目录。各NameNode间元数据不共享，每个NameNode都有对应的standby。

图 2-3 HDFS联邦机制

HDFS的联邦机制主要应用于超大规模文件存储。如互联网公司存储用户行为数据、电信历史数据、语音数据等超大规模数据存储。

1.1.4 数据副本机制

HDFS会把副本放在不同的机架上。如图2-4所示，第一个副本B1在本地机器，第二个副本B2在远端机架，第三个副本B3检测两个副本是否在同一机架，如果是则选择其他机架，否则选择和第一个副本B1相同机架的不同节点，第四个及以上，随机选择副本存放位置。

图2-4 数据副本存储示意图

HDFS系统的机架感知策略的优势是防止由于某个机架失效导致数据丢失，并允许读取数据时充分利用多个机架的带宽。HDFS会尽量让读取任务去读取离客户端最近的副本数据以减少整体带宽消耗，从而降低整体的带宽延时。

对于副本距离的计算公式，HDFS采用如下约定：

（1）Distance（Rack 1/D1 Rack1/D1）= 0 #同一台服务器的距离为0

（2）Distance（Rack 1/D1 Rack1/D3）= 2 #同机架不同服务器距离为2

（3）Distance（Rack 1/D1 Rack2/D1）= 4 #不同机架服务器距离为4

其中，Rack1、Rack2表示机柜标识号，D1、D2、D3表示所在机柜中的DataNode节点主机的编号。即同一主机的两个数据块的距离为0；同一机架不同主机上的两个数据块的距离为2；不同机架主机上的数据块距离为4。

通过机架感知，处于工作状态的HDFS总是设法确保数据块的3个副本（或更多副本）中至少有2个在同一机架，至少有1个处在不同机架（至少处在两个机架上）。

Hadoop 分布式

没有一个完整的F1吗？（没有f12）

778 2022-05-30

HDFS 分布式文件系统 学习（3）

微软OneNote客户预览版学习工具下载（暂未上线）：教学好帮手

没有一个完整的F1吗？（没有f12）

生手如何快速学会制作表格？（新手怎么快速制作表格）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

智能定制家居管理系统：重新定义家庭生活方式

用在线电子表格，居家办公更轻松

友情链接

HDFS分布式文件系统学习（3）

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接

HDFS 分布式文件系统学习（3）