海量小文件处理方式——facebook开源的Haystack（一）-伙伴云

海量小文件处理方式——facebook开源的Haystack（一）

网友投稿 1023 2022-05-30

最近想研究下FusionInsight HD平台在大数据处理方面面对海量小文件场景自研的smallFS组件的原理，奈何文档太少（基本就是与hdfs和zookeeper关联的图，我想看smallFS自身的架构图和业务流程图），只能转而研究facebook开源的处理海量图片场景的组件Haystack。现在将研究结果汇总如下：

Haystack处理的图片数量：

总数据量2600亿张图片，共计20PB级数据。

海量小文件处理方式——facebook开源的Haystack（一）

如果使用HDFS存储这些图片的话，因为HDFS的Namenode用来存储元数据，元数据就是每张图片的索引，比如大小、存储位置等信息。2600亿张图片存在在namenode中就会产生2600亿个数据。而namenode存储在内存中，就算一个元数据块大小为32B，那么2600亿条数据也需要近76TB内存来存储！！！我们常用的服务器内存一般是64G，根本无法满足存储要求。针对这个问题，Haystack解决思路是将海量小文件拼装为大文件，然后将拼接后的大文件保存起来。同时，维护大文件和小文件之间的map。具体如下：

比如我们假设4M以下的文件就是小文件，那么我们可以将原本几K几十K的文件拼装。假设海量小文件大多是1KB的，那么拼接后的一个大文件就可以一次拼接4096个文件，相当于元数据压缩比为4096。

好了，我们回到Haystack的方案。Haystack假设近期、常用的图片可以通过缓存CDN的方式解决用户访问，如下图所示

上面的流程可以这么理解：用户通过浏览器访问facebook图片，用户请求会先发到对应的web服务器，web服务器返回存放图片的CDN地址，然后浏览器再到CDN去访问图片，如果CDN刚好存储了该图片则直接返回给用户；如果没有，则到存储设备上访问，图片先缓存到CDN，再返回给用户。

上面是传统的、解决近期、常用图片访问场景的架构。

我们来看看Haystack在解决用户不常用图片访问速率的架构

上图展示了Haystack三个关键组件：Haystack Directory、Haystack Cache和Haystack store。

Haystack store负责图片永久存储和图片元数据管理。使用逻辑卷和物理卷对应关系保证一个图片存储在三个物理卷上，解决图片高可靠。

访问路径与先后顺序如下：

http://///

即先从CDN获取，如果没有再从Haystack Cache获取，如果也没有再从物理卷获取。每一级的效率逐级递减

------------------------------------------------------------------------

未完待续

CDN

掌握excel如何批量查找以提升工作效率的实用技巧

1023 2022-05-30

海量小文件 处理 方式——facebook开源的Haystack（一）

excel能翻译英语吗

确保Excel文档安全的有效加密策略和方法

掌握excel如何批量查找以提升工作效率的实用技巧

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

简单进销存库存管理盘点

友情链接