2021年 大数据 Spark（十八）：Spark Core的RDD Checkpoint

网友投稿 896 2022-05-28

RDD Checkpoint

引入

API

代码演示

总结：持久化和Checkpoint的区别

问题:

答案:

区别:

RDD Checkpoint

引入

RDD 数据可以持久化，但是持久化/缓存可以把数据放在内存中，虽然是快速的，但是也是最不可靠的；也可以把数据放在磁盘上，也不是完全可靠的！例如磁盘会损坏等。

Checkpoint的产生就是为了更加可靠的数据持久化，在Checkpoint的时候一般把数据放在在HDFS上，这就天然的借助了HDFS天生的高容错、高可靠来实现数据最大程度上的安全，实现了RDD的容错和高可用。

在Spark Core中对RDD做checkpoint，可以切断做checkpoint RDD的依赖关系，将RDD数据保存到可靠存储（如HDFS）以便数据恢复；

API

第一步:sc.setCheckpointDir("HDFS目录") //HDFS的目录

第二步:rdd.checkpoint //后续会被多次频繁使用到的RDD/很重要的RDD

代码演示

package cn.itcast.core

import org.apache.spark.{SparkConf, SparkContext}

/**

* RDD数据Checkpoint设置，案例演示

object SparkCkptTest {

def main(args: Array[String]): Unit = {

val sparkConf: SparkConf = new SparkConf()

.setAppName(this.getClass.getSimpleName.stripSuffix("$"))

.setMaster("local[*]")

val sc: SparkContext = new SparkContext(sparkConf)

sc.setLogLevel("WARN")

// 设置检查点目录，将RDD数据保存到那个目录

sc.setCheckpointDir("./ckp")

// 读取文件数据

val datasRDD = sc.textFile("data/input/words.txt")

// 调用checkpoint函数，将RDD进行备份，需要RDD中Action函数触发

datasRDD.checkpoint()

datasRDD.count()

//再次执行count函数, 此时从checkpoint读取数据

datasRDD.count()

// 应用程序运行结束，关闭资源

sc.stop()

}

总结：持久化和Checkpoint的区别

问题:

缓存持久化 VS Checkpoint 开发中用哪个?

答案:

缓存持久化(保证后续再次使用的速度) + Checkpoint(保证安全)

区别:

1）、存储位置

Persist 和 Cache 只能保存在本地的磁盘和内存中(或者堆外内存)；

2021年大数据Spark（十八）：Spark Core的RDD Checkpoint

Checkpoint 可以保存数据到 HDFS 这类可靠的存储上；

2）、生命周期

Cache和Persist的RDD会在程序结束后会被清除或者手动调用unpersist方法；

Checkpoint的RDD在程序结束后依然存在，不会被删除；

3）、Lineage(血统、依赖链、依赖关系)

Persist和Cache，不会丢掉RDD间的依赖链/依赖关系，因为这种缓存是不可靠的，如果出现了一些错误(例如 Executor 宕机)，需要通过回溯依赖链重新计算出来；

Checkpoint会斩断依赖链，因为Checkpoint会把结果保存在HDFS这类存储中，更加的安全可靠，一般不需要回溯依赖链；

spark 大数据

标签：2021年大数据 Spark 十八

大数据 服务上云的思考">大数据 服务上云的思考

896 2022-05-28

国美&华为，战略合作签约！

896 2022-05-28

面对 大数据Excel 如何做到数据的快速整理及Excel 的美化（面对大数据时代我们应该怎么做）">面对 大数据Excel 如何做到数据的快速整理及Excel 的美化（面对大数据时代我们应该怎么做）

896 2022-05-28

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜
进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）
在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐
WPS2016怎么绘制简单的价格表?
定制订单管理系统（为特定需求定制的订单管理系统）
系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

2021年 大数据 Spark（十八）：Spark Core的RDD Checkpoint

大数据 服务上云的思考">大数据 服务上云的思考

国美&华为，战略合作签约！

面对 大数据Excel 如何做到数据的快速整理及Excel 的美化（面对大数据时代我们应该怎么做）">面对 大数据Excel 如何做到数据的快速整理及Excel 的美化（面对大数据时代我们应该怎么做）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

定制订单管理系统（为特定需求定制的订单管理系统）

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

2021年大数据Spark（十八）：Spark Core的RDD Checkpoint

微信扫一扫：分享

大数据服务上云的思考">大数据服务上云的思考

面对大数据Excel 如何做到数据的快速整理及Excel 的美化（面对大数据时代我们应该怎么做）">面对大数据Excel 如何做到数据的快速整理及Excel 的美化（面对大数据时代我们应该怎么做）

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

2021年大数据 Spark（十八）：Spark Core的RDD Checkpoint