海量小文件处理方式——Improve HAR-伙伴云

海量小文件处理方式——Improve HAR

网友投稿 926 2022-05-28

改进的HDFS结构包含两部分：

用于聚合小文件为大文件的客户端组件，client；

用于缓存资源管理的数据结点组件，data node；

具体架构图如下：

改进的HDFS模型是基于索引的。存在依赖关系的、同一目录下的小文件可以聚合为一个大文件，依次来减少每一个小文件元数据都单独存储在NameNode中对于NameNode结点内存的消耗。

缓存策略可以增加小文件读速率。缓存管理器部署在DataNode结点，这样当每一次读取小文件时，可以首先从缓存中获取，而非磁盘。想想看，如果读文件不在缓存中，那么不得不到DataNode结点的磁盘获取。磁盘和内存的速率非一个数量级！。

文件整合的设计：每一个合并后的大文件包含被合并小文件的文件大小、在大文件中的偏移量，这些信息被整合在大文件索引文件中。

文件整合程序的功能如下：

就特定目录下的小文件排序，之后将小文件一个个合并为大文件；

确定待合并小文件总体的数量；

确定合并后大文件大小，并且与HDFS默认块大小比较。

索引文件是依据每一个小文件的大小、偏移量的创建的。为了在HDFS块中存储大文件，需要确保大文件大小不能大于块大小（默认HDFS块大小为64M）。

海量小文件处理方式——Improve HAR

如果合并后的文件大小大于HDFS块大小，则合并后的文件需要先分片，再存储到不同的HDFS块中。

基于上述描述，识别大文件中每个文件的偏移量和顺序，并据此构建索引文件，从而结束文件整合过程。

----------------------------------------------------------------------------------------------------------------------------------------------------------------

其实看上面的流程，我们发现Improve HAR也存在一些问题，比如合并后的大文件查找，如果是随机查，也会性能很差。如果索引采用hash方式可以适度缓解该问题。

Hadoop

确保Excel文档安全的有效加密策略和方法

926 2022-05-28

海量小文件 处理 方式——Improve HAR

excel能翻译英语吗

确保Excel文档安全的有效加密策略和方法

掌握excel如何批量查找以提升工作效率的实用技巧

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

智能定制家居管理系统：重新定义家庭生活方式

用在线电子表格，居家办公更轻松

友情链接

海量小文件处理方式——Improve HAR

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接