Spark中的算子都有哪些-伙伴云

Spark中的算子都有哪些

网友投稿 1288 2022-05-29

Spark中的算子都有哪些

总的来说,spark分为三大类算子:

Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理； Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算

Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业； Action 算子会触发 Spark 提交作业（Job），并将数据输出 Spark系统

controller 控制操作：Spark中控制算子也是懒执行的，需要Action算子触发才能执行，主要是为了对数据进行缓存。

控制算子有三种，cache,persist,（RDD 持久化原理）checkpoint，以上算子都可以将RDD持久化，持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘，还能切断RDD之间的依赖关系。

输入分区与输出分区一对一型

map算子

flatMap算子

mapPartitions算子

glom算子

输入分区与输出分区多对一型

union算子

cartesian算子

输入分区与输出分区多对多型

grouBy算子

输出分区为输入分区子集型

filter算子

distinct算子

subtract算子

sample算子

takeSample算子

Cache型

cache算子

persist算子

输入分区与输出分区一对一

mapValues算子

对单个RDD或两个RDD聚集

combineByKey算子

reduceByKey算子

partitionBy算子

Cogroup算子

连接

join算子

leftOutJoin 和 rightOutJoin算子

无输出

foreach算子

HDFS算子

saveAsTextFile算子

saveAsObjectFile算子

Scala集合和数据类型

collect算子

collectAsMap算子

reduceByKeyLocally算子

lookup算子

count算子

top算子

reduce算子

fold算子

aggregate算子

countByValue

countByKey

Spark中的算子都有哪些

spark

数据湖应用解析：Spark on Elasticsearch一致性问题

1288 2022-05-29

Spark中的算子都有哪些

数据湖应用解析：Spark on Elasticsearch一致性问题

CANN AICPU算子耗时分析及优化探索

JVM(和Spark)性能优化：使用Java Mission Control (7)

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

定制订单管理系统（为特定需求定制的订单管理系统）

什么是在线文档？怎么发在线文档

友情链接

Spark中的算子都有哪些

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接