Spark 运行 模式 概述

网友投稿 651 2022-05-30

Spark编程模型回顾

Spark编程模型几大要素

● Driver Program

● 输入-Transformation-Action

● 缓存

● 共享变量

RDD的五大特征

● 分区--- partitions

● 依赖--- dependencies()

● 计算函数--- computer(p,context)

● 分区策略(Pair RDD)-- partitioner()

● 本地性策略--- preferredLocations(p)

Spark基本运行流程

Application program的组成

● Job ：包含多个Task 组成的并行计算，跟Spark action对应。

● Stage ： Job 的调度单位，对应于TaskSet 。

● TaskSet ：一组关联的、相互之间没有shuffle 依赖关系的任务组成的任务集。

● Task ：被送到某个executor 上的工作单元

Spark运行模式概述

运行流程概述:

具体流程(以standalone模式为例):

任务调度:

DAGScheduler

● 构建Stage—碰到shuffle就split

● 记录哪个RDD 或者Stage 输出被物化

● 重新提交shuffle 输出丢失的stage

● 将Taskset 传给底层调度器

● 本地性策略--- preferredLocations(p)

1.spark-cluster TaskScheduler

2.yarn-cluster YarnClusterScheduler

3.yarn-client YarnClientClusterScheduler

TaskScheduler

● 为每一个TaskSet 构建一个TaskSetManager 实例管理这个TaskSet 的生命周期

● 数据本地性决定每个Task 最佳位置(process-local, node-local, rack-local and then and any

● 提交taskset( 一组task) 到集群运行并监控

● 推测执行，碰到straggle 任务放到别的节点上重试

● 出现shuffle 输出lost 要报告fetch failed 错误

ScheduleBacked

● 实现与底层资源调度系统的交互(YARN，mesos等)

● 配合TaskScheduler实现具体任务执行所需的资源分配(核心接口receiveOffers)

详细过程:

实例分析

实例解析

val lines = ssc.textFile(args(1)) // 输入

val words = lines.flatMap(x =>x.split(" "))

words.cache() // 缓存

val wordCounts = words.map(x =>(x, 1) )

val red = wordCounts.reduceByKey( (a,b)=>{a + b} ， 8)

red.saveAsTextFile(“/root/Desktop/out” ， 8) // 行动

Spark运行模式简介

Spark运行模式列表

spark

标签：Spark 运行模式概述

BI报表的优势">BI报表的优势

651 2022-05-30

管理 软件让您营销轻松自如">汽配行业进销存管理 软件让您营销轻松自如

651 2022-05-30

BI报表，提升业务洞察力">Java开发BI报表，提升业务洞察力

651 2022-05-30

最近发表

宠物集市在深圳哪里有?时间地址最新消息
亚洲宠物展2025年展会介绍
京宠展信息指南
宠物展会2025年时间表
亚宠展、全球宠物产业风向标——亚洲宠物展览会深度解析
2025年亚洲宠物展览会、京宠展有哪些亮点
wps演示添加自定义按钮设置动作改变按顺序播放" href="https://www.huoban.com/news/post/118206.html">wps演示添加自定义按钮设置动作改变按顺序播放
WPS行中的文本调整到行中" href="https://www.huoban.com/news/post/119027.html">如何将WPS行中的文本调整到行中
系统字体问题（win10系统怎么设置密码）" href="https://www.huoban.com/news/post/62643.html">WIN10系统字体问题（win10系统怎么设置密码）
格式的应用（应用文标题的格式）" href="https://www.huoban.com/news/post/63002.html">标题格式的应用（应用文标题的格式）

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜
进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）
在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐
WPS2016怎么绘制简单的价格表?
系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工
什么是在线文档？怎么发在线文档

Spark 运行 模式 概述

BI报表的优势">BI报表的优势

管理 软件让您营销轻松自如">汽配行业进销存管理 软件让您营销轻松自如

BI报表，提升业务洞察力">Java开发BI报表，提升业务洞察力

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

什么是在线文档？怎么发在线文档

友情链接

微信扫一扫：分享

BI报表的优势">BI报表的优势

管理软件让您营销轻松自如">汽配行业进销存管理软件让您营销轻松自如

BI报表，提升业务洞察力">Java开发BI报表，提升业务洞察力

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接