Spark入门到精通视频学习资料--第三章：Spark进阶（2讲）-伙伴云

Spark入门到精通视频学习资料--第三章：Spark进阶（2讲）

网友投稿 710 2025-04-05

掌握Spark内核是精通Spark的关键，也是驾驭Spark的精髓所在。

基于Spark内核，Spark构建起了一体化多元化的大数据处理流水线，在一个技术堆栈中即可以同时完成批处理、实时流处理、交互式查询、机器学习、图计算以及这些子框架之间数据和RDD算子的无缝共享与互操作。

可以说，Spark内核是每个想彻底掌握Spark的人员的必修课，通过对内核的探索，我们对整个Spark的运行机制会了如指掌，这对Spark的大规模应用、性能优化、系统自定义开发Spark系统都是至关重要的。

Spark入门到精通视频学习资料--第三章：Spark进阶（2讲）

一、Spark内核核心术语解析

Application：

Application是创建了SparkContext实例对象的Spark用户，包含了Driver程序

Spark-shell是一个应用程序，因为spark-shell在启动的时候创建了SparkContext对象，其名称为sc

Job：

和Spark的action相对应，每一个action例如count、savaAsTextFile等都会对应一个Job实例，该Job实例包含多任务的并行计算。

Driver Program：

运行main函数并且新建SparkContext实例的程序。

Cluster Manager：

集群资源管理的外部服务，在Spark上现在主要有Standalone、Yarn、Mesos等三种集群资源管理器，Spark自带的Standalone模式能够满足绝大部分纯粹的Spark计算环境中对集群资源管理的需求，基本上只有在集群中运行多套计算框架的时候才建议考虑Yarn和Mesos。

Worker Node：

集群中可以运行应用程序代码的工作节点，相当于Hadoop的slave节点。

Executor：

在一个Worker Node上为应用启动的工作进程，在进程中负责任务的运行，并且负责将数据存放在内存或磁盘上，必须注意的是，每个应用在一个Worker Node上只会有一个Executor，在Executor内部通过多线程的方式并发处理应用的任务。

Task：

被Driver送到executor上的工作单元，通常情况下一个task会处理一个split的数据，每个split一般就是一个Block块的大小

Stage：

一个Job会被拆分成很多任务，每一组任务被成为Stage，这个MapReduce的map和reduce任务很像，划分Stage的依据在于：Stage开始一般是由于读取外部数据或者Shuffle数据、一个Stage的结束一般是由于发生Shuffle（例如reduceByKey操作）或者整个Job结束时例如要把数据放到hdfs等存储系统上

附上讲解PPT：

深入spark内核.pdf http://pan.baidu.com/s/1mgHZGhU

视频 spark

微吼云上线多路互动直播服务加速多场景互动直播落地

710 2025-04-05

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

710 2025-04-05

AI创想秀，邂逅“华为云ModelArts”征文大赛——第一次收官

710 2025-04-05

Spark入门到精通视频学习资料--第三章：Spark进阶（2讲）

微吼云上线多路互动直播服务加速多场景互动直播落地

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

AI创想秀，邂逅“华为云ModelArts”征文大赛——第一次收官

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

客户管理工具是什么？">客户管理工具是什么？

进销存库存管理盘点">简单进销存库存管理盘点

友情链接

Spark入门到精通视频学习资料--第三章：Spark进阶（2讲）

微信扫一扫：分享

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

客户管理工具是什么？">客户管理工具是什么？

进销存库存管理盘点">简单进销存库存管理盘点

友情链接