Spark shuffle介绍：shuffle data生命周期-伙伴云

Spark shuffle 介绍：shuffle data生命周期

网友投稿 1005 2022-05-28

shuffle data持久化在磁盘上，如果一直不清理，磁盘容易被撑爆。那shuffle data什么时候会被清理呢。一般来说可以分成3种场景：

1、spark application主动停止，需要清理该application下所属的全部shuffle data。清理流程如下（本文均以未启用external shuffle service,spark 2.x代码为例）：

2、application存活，但某个阶段的shuffle data不再需要，可以被删除清理。这里核心是如何判断某个shuffle data不再被需要。spark里是利用java的GC机制来判断某个shuffle是否还需要使用。宽依赖会存在shuffle，在创建ShuffleDependency时会将该对象以弱引用的方式注册在ContextCleaner，然后ContextCleaner周期性检查该弱引用对象是否被GC回收了，如果回收说明该ShuffleDependency对象不再被依赖，即shuffle data不再被需要，可以被清理。为了避免一直未GC导致shuffle不被清理，ContextCleaner也会定期调用system.gc来建议GC。

3、机器异常掉电的情况，application来不及执行主动关闭逻辑进行shuffle清理。这种一般依赖外围的资源管理如yarn的清理机制，或者需要在外围添加周期性检查程序，清理非存活application的所有shuffle数据。

Spark shuffle介绍：shuffle data生命周期

EI企业智能 spark 智能数据表格存储服务 CloudTable

excel表格常用快捷键的介绍（excel表格快捷键使用）

1005 2022-05-28

Spark shuffle 介绍：shuffle data生命周期

简单地介绍Excel中的数组公式为进一步的研究和应用打下基础（excel数组公式）

excel表格常用快捷键的介绍（excel表格快捷键使用）

介绍Excle表格中的常用术语（表格术语都有啥）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

定制订单管理系统（为特定需求定制的订单管理系统）

什么是在线文档？怎么发在线文档

友情链接

Spark shuffle介绍：shuffle data生命周期

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接

Spark shuffle 介绍：shuffle data生命周期