Spark之【RDD编程进阶】——累加器与广播变量的使用-伙伴云

Spark之【RDD编程进阶】——累加器与广播变量的使用

网友投稿 851 2022-05-30

上一篇博客博主已经为大家介绍了Spark中数据读取与保存，这一篇博客则带来了Spark中的编程进阶。其中就涉及到了累加器与广播变量的使用。

文章目录

RDD编程进阶

1.累加器

1.1系统累加器

2.广播变量(调优策略)

RDD编程进阶

1.累加器

累加器用来对信息进行聚合，通常在向 Spark传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能，那么累加器可以实现我们想要的效果。

针对一个输入的日志文件，如果我们想计算文件中所有空行的数量，我们可以编写以下程序：

Spark之【RDD编程进阶】——累加器与广播变量的使用

scala> val notice = sc.textFile("./NOTICE") notice: org.apache.spark.rdd.RDD[String] = ./NOTICE MapPartitionsRDD[40] at textFile at :32 scala> val blanklines = sc.accumulator(0) warning: there were two deprecation warnings; re-run with -deprecation for details blanklines: org.apache.spark.Accumulator[Int] = 0 scala> val tmp = notice.flatMap(line => { | if (line == "") { | blanklines += 1 | } | line.split(" ") | }) tmp: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[41] at flatMap at :36 scala> tmp.count() res31: Long = 3213 scala> blanklines.value res32: Int = 171

通过在驱动器中调用SparkContext.

accumulator

(initialValue)方法，创建出存有初始值的累加器。返回值为 org.apache.spark.Accumulator[T] 对象，其中 T 是初始值 initialValue 的类型。Spark闭包里的执行器代码可以使用累加器的 += 方法(在Java中是 add)增加累加器的值。驱动器程序可以调用累加器的value属性(在Java中使用value()或setValue())来访问累加器的值。

注意:

工作节点上的任务不能访问累加器的值。从这些任务的角度来看，累加器是一个只写变量。

对于要在行动操作中使用的累加器，Spark只会把每个任务对各累加器的修改应用一次。因此，如果想要一个无论在失败还是重复计算时都绝对可靠的累加器，我们必须把它放在 foreach() 这样的行动操作中。转化操作中累加器可能会发生不止一次更新。

2.广播变量(调优策略)

广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值，以供一个或多个Spark操作使用。比如，如果你的应用需要向所有节点发送一个较大的只读查询表，甚至是机器学习算法中的一个很大的特征向量，广播变量用起来都很顺手。在多个并行操作中使用同一个变量，但是 Spark会为每个任务分别发送。

scala> val broadcastVar = sc.broadcast(Array(1, 2, 3)) broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(35) scala> broadcastVar.value res33: Array[Int] = Array(1, 2, 3)

使用广播变量的过程如下：

(1) 通过对一个类型 T 的对象调用 SparkContext.broadcast 创建出一个 Broadcast[T] 对象。

任何可序列化

的类型都可以这么实现。

(2) 通过 value 属性访问该对象的值(在 Java 中为 value() 方法)。

(3) 变量只会被发到各个节点一次，应作为只读值处理(修改这个值不会影响到别的节点)。

本次的分享就到这里，对大数据技术感兴趣的朋友可以关注一下哟~

spark 硬件开发

excel表格vba编程的方法步骤（excel编写vba程序）

851 2022-05-30

Spark之【RDD编程进阶】——累加器与广播变量的使用

excel表格vba编程的方法步骤（excel vba编程基础知识）

编程app用什么软件（app编程软件有哪些）

excel表格vba编程的方法步骤（excel编写vba程序）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

家居定制平台是什么？

友情链接

Spark之【RDD编程进阶】——累加器与广播变量的使用

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接