深度图解spark的cacheManager和DiskManager原理

网友投稿 897 2025-04-04

本文和之前发表的2篇文章有关联,建议先阅读前两篇文章

spark的内存管理机制学习——BlockManager

spark到底是怎么确认内存够不够用的？超大超详细图解！让你掌握Spark memeoryStore内存管理的精髓

spark中存在一个cacheManager，它的作用是什么？缓存原理又是如何的？

以及和内存memoryStore对应的diskManager，它又是如何和内存管理做交互，实现spark很重要的落盘机制的？本文将给你进行一一讲解

RDD缓存管理cacheManager

当需要计算RDD时，需要避免重复计算的RDD。

什么时候RDD可能会被重复计算？一般是宽依赖RDD，即RDD的下游可能有多个，但是另一个下游的拉去可能较慢，那么此时需要做缓存。

cacheManager只是对RDD的管理，真正的缓存以及获取是通过blockManager，然后根据内存情况选择存内存还是存磁盘。

RDD不是一定会做缓存，这取决于存储级别的设定。

RDD没缓存时，不一定要重新计算，也可能从CheckPoint中拿

checkPoint概念:

checkpoint在spark中主要有两块应用：一块是在spark core中对RDD做checkpoint，可以切断做checkpoint RDD的依赖关系，将RDD数据保存到可靠存储（如HDFS）以便数据恢复；另外一块是应用在spark streaming中，使用checkpoint用来保存DStreamGraph以及相关配置信息，以便在Driver崩溃重启的时候能够接着之前进度继续进行处理（如之前waiting batch的job会在重启后继续处理）。

如果需要存入内存，直接使用memoryStore即可，memoryStore的存储过程见上一篇博文。

深度图解spark的cacheManager和DiskManager原理

如果要写入磁盘，需要调用diskStore提供的put方法把RDD对应的block块写入磁盘

diskStore和diskBlockManager有什么关系？

diskStore里要写入数据时，负责打开某个文件，然后往文件里写入。

取出数据时，也是找到对应的文件，然后取出数据。

而这个磁盘文件的管理并没有放到diskStore里实现，而是独立了一个diskBlockManager模块。

以DiskStore的putArray方法为例，从下图可看出关系：

即文件相关、序列化相关，都让diskBlockManager来搞了。

diskBlockManager的getFile过程

上图里有个getFile的操作，即从DBM中拿到文件对象做写入。

那么这个文件创建时，怎么选路径，怎么命名？

首先，文件的路径和文件名，使用2次哈希得到

使用2级哈希做路径的目的，是因为一级目录有多个，需要用哈希选择放到哪个一级目录。

每次创建文件的话，会把该文件放到DBM里的一个数组中，并加上钩子做管理，如果程序中止或者结束，需要主动清理临时文件。

DiskBlockManager全图:

EI企业智能 Java 可信智能计算服务 TICS 大数据智能数据

标签：磁盘文件大数据可能

大数据 服务上云的思考">大数据 服务上云的思考

897 2025-04-04

公众号文章汇总

897 2025-04-04

国美&华为，战略合作签约！

897 2025-04-04

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜
进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）
在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐
WPS2016怎么绘制简单的价格表?
定制订单管理系统（为特定需求定制的订单管理系统）
系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

深度图解spark的cacheManager和DiskManager原理

大数据 服务上云的思考">大数据 服务上云的思考

公众号文章汇总

国美&华为，战略合作签约！

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

定制订单管理系统（为特定需求定制的订单管理系统）

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

深度图解spark的cacheManager和DiskManager原理

微信扫一扫：分享

大数据服务上云的思考">大数据服务上云的思考

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接