《Spark数据分析：基于Python语言》 —1.2.7　Spark与Hadoop-伙伴云

《Spark 数据分析：基于Python语言》 —1.2.7　Spark与Hadoop

网友投稿 856 2022-05-30

1.2.7　Spark与Hadoop

《Spark数据分析：基于Python语言》 —1.2.7　Spark与Hadoop

如前所述，Hadoop和Spark两者是紧密关联的，它们有共同的历史，核心的并行处理概念也有共通之处，比如无共享和数据本地化。下面我们了解一下Hadoop和Spark一般是如何共同使用的。

1.以HDFS作为Spark的一种数据源

Spark可以用作Hadoop平台上的数据，也就是HDFS上数据的处理框架。Spark为读写HDFS上的多种文件格式的数据提供了内建支持，包括如下所列：

原生文本文件格式

SequenceFile格式

Parquet格式

此外，Spark还支持Avro、ORC等文件格式。用Spark从HDFS上读取一个文件非常简单，如下所示：

从Spark应用向HDFS写数据也很简单，如下所示：

2.以YARN作为Spark的一种资源调度器

YARN是Spark应用最常用的进程调度器。因为在Hadoop集群里，YARN通常和HDFS部署在一起，所以使用YARN作为平台管理Spark应用很方便。

同时，因为YARN管理着Hadoop集群里各节点的计算资源，所以它能在任何可用的地方并发调度Spark的处理任务。这样，当使用HDFS作为Spark应用的输入数据源时，YARN可以调度映射任务以充分保证数据本地化，以此在关键的初始处理阶段最大程度地减小需要跨网传输的数据量。

Spark python spark Python

亚宠展、全球宠物产业风向标——亚洲宠物展览会深度解析

856 2022-05-30

数据 如何合并成一列，谢谢（如何将两列数据合并到一列）">两列数据 如何合并成一列，谢谢（如何将两列数据合并到一列）

856 2022-05-30

SUBSTITUTE

856 2022-05-30

《Spark 数据 分析：基于Python语言》 —1.2.7　Spark与Hadoop

亚宠展、全球宠物产业风向标——亚洲宠物展览会深度解析

数据 如何合并成一列，谢谢（如何将两列数据合并到一列）">两列数据 如何合并成一列，谢谢（如何将两列数据合并到一列）

SUBSTITUTE

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

客户管理工具是什么？">客户管理工具是什么？

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

友情链接

《Spark数据分析：基于Python语言 》 —1.2.7 Spark与Hadoop

微信扫一扫：分享

数据如何合并成一列，谢谢（如何将两列数据合并到一列）">两列数据如何合并成一列，谢谢（如何将两列数据合并到一列）

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

客户管理工具是什么？">客户管理工具是什么？

Excel项目进度表模板，简化您的项目进度管理">Excel项目进度表模板，简化您的项目进度管理

友情链接

《Spark 数据分析：基于Python语言》 —1.2.7　Spark与Hadoop