Spark为什么快，Spark SQL 一定比 Hive 快吗

网友投稿 1238 2025-04-05

Spark SQL 比 Hadoop Hive 快，是有一定条件的，而且不是 Spark SQL 的引擎比 Hive 的引擎快，相反，Hive 的 HQL 引擎还比 Spark SQL 的引擎更快。其实，关键还是在于 Spark 本身快。

消除了冗余的 HDFS 读写: Hadoop 每次 shuffle 操作后，必须写到磁盘，而 Spark 在 shuffle 后不一定落盘，可以 persist 到内存中，以便迭代时使用。如果操作复杂，很多的 shufle 操作，那么 Hadoop 的读写 IO 时间会大大增加，也是 Hive 更慢的主要原因了。

消除了冗余的 MapReduce 阶段: Hadoop 的 shuffle 操作一定连着完整的 MapReduce 操作，冗余繁琐。而 Spark 基于 RDD 提供了丰富的算子操作，且 reduce 操作产生 shuffle 数据，可以缓存在内存中。

JVM 的优化: Hadoop 每次 MapReduce 操作，启动一个 Task 便会启动一次 JVM，基于进程的操作。而 Spark 每次 MapReduce 操作是基于线程的，只在启动 Executor 是启动一次 JVM，内存的 Task 操作是在线程复用的。每次启动 JVM 的时间可能就需要几秒甚至十几秒，那么当 Task 多了，这个时间 Hadoop 不知道比 Spark 慢了多少。

Hive spark SQL

标签：Spark Spark SQL

SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK">【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

1238 2025-04-05

SparkAPI Java版】JavaPairRDD——cartesian（三）">【SparkAPI Java版】JavaPairRDD——cartesian（三）

1238 2025-04-05

解决了 hadoop 的哪些问题(spark VS MR)">spark 解决了 hadoop 的哪些问题(spark VS MR)

1238 2025-04-05

最近发表

宠物集市在深圳哪里有?时间地址最新消息
亚洲宠物展2025年展会介绍
京宠展信息指南
宠物展会2025年时间表
亚宠展、全球宠物产业风向标——亚洲宠物展览会深度解析
2025年亚洲宠物展览会、京宠展有哪些亮点
wps演示添加自定义按钮设置动作改变按顺序播放" href="https://www.huoban.com/news/post/118206.html">wps演示添加自定义按钮设置动作改变按顺序播放
WPS行中的文本调整到行中" href="https://www.huoban.com/news/post/119027.html">如何将WPS行中的文本调整到行中
系统字体问题（win10系统怎么设置密码）" href="https://www.huoban.com/news/post/62643.html">WIN10系统字体问题（win10系统怎么设置密码）
格式的应用（应用文标题的格式）" href="https://www.huoban.com/news/post/63002.html">标题格式的应用（应用文标题的格式）

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜
进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）
在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐
WPS2016怎么绘制简单的价格表?
系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工
什么是在线文档？怎么发在线文档

Spark为什么快，Spark SQL 一定比 Hive 快吗

SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK">【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

SparkAPI Java版】JavaPairRDD——cartesian（三）">【SparkAPI Java版】JavaPairRDD——cartesian（三）

解决了 hadoop 的哪些问题(spark VS MR)">spark 解决了 hadoop 的哪些问题(spark VS MR)

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

什么是在线文档？怎么发在线文档

友情链接

Spark为什么快，Spark SQL 一定比 Hive 快吗

微信扫一扫：分享

SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK">【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

SparkAPI Java版】JavaPairRDD——cartesian（三）">【SparkAPI Java版】JavaPairRDD——cartesian（三）

解决了 hadoop 的哪些问题(spark VS MR)">spark 解决了 hadoop 的哪些问题(spark VS MR)

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接