Spark-伙伴云

Spark

Spark为什么快，Spark SQL 一定比 Hive 快吗 Spark SQL 比 Hadoop Hive 快，是有一定条件的，而且不是 Spark SQL 的引擎比 Hive 的引擎快，相反，Hive 的 HQL 引擎还比 Spark SQL 的引擎更快。其实，关键还是在于 Spark 本身快。消除了冗余的 HDFS 读写: Hadoop 每次 shuffle 操作后，必须写到磁盘，而 S...

甘特图怎么制作更方便？甘特图制作方法" title="甘特图怎么制作更方便？甘特图制作方法" width="200" height="150">

[置顶]甘特图怎么制作更方便？甘特图制作方法

甘特图 •2025-03-31

本文关于甘特图怎么制作更方便？甘特图制作方法。其实现在制作甘特图的方式有多种多样，可以直接使用表格的方式来制作，或者是使用一些线上工具来制作甘特图都是可以的。今天针对于甘特图制作方式给大家详细的分享一...

数据分析甘特图制作甘特图甘特图工具
OKR的实施标准步骤是什么？成功实施落地OKR的要点" title="OKR的实施标准步骤是什么？成功实施落地OKR的要点" width="200" height="150">

[置顶]OKR的实施标准步骤是什么？成功实施落地OKR的要点

OKR管理 •2025-03-31

本文关于okr的实施标准步骤是什么？成功实施落地OKR的要点。其实有关于Okr工作法，相信很多人都有一定的了解。OKR定义为一个重要的思维框架和一个发展中的学科，旨在确保员工一起工作，并专注于做出可衡...

OKR OKR系统 okr管理
Spark为什么快，Spark SQL 一定比 Hive 快吗" title="Spark为什么快，Spark SQL 一定比 Hive 快吗" width="200" height="150">

Spark为什么快，Spark SQL 一定比 Hive 快吗

所有内容 •2025-04-05

Spark为什么快，Spark SQL 一定比 Hive 快吗 Spark SQL 比 Hadoop Hive 快，是有一定条件的，而且不是 Spark SQL 的引擎比 Hive 的引擎快，相反，H...

Spark Spark SQL
SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK" title="【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK" width="200" height="150">

【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

所有内容 •2025-04-04

/** * Approximate version of count() that returns a potentially incomplete result * within a timeout...

Spark count
SparkAPI Java版】JavaPairRDD——cartesian（三）" title="【SparkAPI Java版】JavaPairRDD——cartesian（三）" width="200" height="150">

【SparkAPI Java版】JavaPairRDD——cartesian（三）

所有内容 •2025-04-04

Return the Cartesian product of this RDD and another one, that is, the RDD of all pairs of elements...

Spark Java
解决了 hadoop 的哪些问题(spark VS MR)" title="spark 解决了 hadoop 的哪些问题(spark VS MR)" width="200" height="150">

spark 解决了 hadoop 的哪些问题(spark VS MR)

所有内容 •2025-04-04

spark 解决了 hadoop 的哪些问题(spark VS MR) spark 解决了 hadoop 的哪些问题(spark VS MR)？ MR：抽象层次低，需要使用手工代码来完成程序编写，使用...

Spark 解决 Hadoop
SparkAPI】JavaPairRDD——countByKey、countByKeyApprox" title="【SparkAPI】JavaPairRDD——countByKey、countByKeyApprox" width="200" height="150">

【SparkAPI】JavaPairRDD——countByKey、countByKeyApprox

所有内容 •2025-04-02

/** * Count the number of elements for each key, collecting the results to a local Map. * * @note Th...

Spark Java
Spark)性能优化：使用Java Mission Control (1)" title="JVM(和Spark)性能优化：使用Java Mission Control (1)" width="200" height="150">

JVM(和 Spark)性能优化：使用Java Mission Control (1)

所有内容 •2025-04-02

在大数据分析或其它业务处理中，你是否碰到过作业停滞、卡住等响应性问题呢？或者每隔1~2小时就有7~8秒的停顿时间而你的机器有48 cores和128GB RAM呢？或者内存占用过大（也不确定是否有内存...

Spark
Spark 概述" title="Spark 概述" width="200" height="150">

Spark 概述

所有内容 •2025-04-02

Spark 是什么？ ● 官方文档解释：Apache Spark™ is a fast and general engine for large-scale data processing. 通俗的理...

Spark 概述
Spark从精通到重新入门(一)」Spark 中不可不知的动态优化" title="「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化" width="200" height="150">

「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化

所有内容 •2025-04-02

简介： Apache Spark 自 2010 年面世，到现在已经发展为大数据批计算的首选引擎。而在 2020 年 6 月份发布的Spark 3.0 版本也是 Spark 有史以来最大的 Releas...

Spark 精通
SparkAPI Java版】JavaPairRDD——cache、persist、unpersist、getStorageL" title="【SparkAPI Java版】JavaPairRDD——cache、persist、unpersist、getStorageL" width="200" height="150">

【SparkAPI Java版】JavaPairRDD——cache、persist、unpersist、getStorageL

所有内容 •2025-04-02

这四个方法都和缓存有关，所以写在一块。 Persist this RDD with the default storage level (MEMORY_ONLY). cache就是在内存中缓存数据，其...

Spark Java
streaming 连接kafka引发"partition.assignment.strategy"异常处理" title="spark streaming 连接kafka引发"partition.assignment.strategy"异常处理" width="200" height="150">

spark streaming 连接kafka引发"partition.assignment.strategy"异常处理

所有内容 •2025-04-02

服务器运行环境：spark 2.4.4 + scall 2.11.12 + kafka 2.2.2 由于业务相对简单，kafka只有固定topics，所以一直使用下面脚本执行实时流计算 spark-s...

Spark streaming 连接 Kafka

1
2
3
4
5
6
7
8
9
下一页
尾页

Spark

[置顶]甘特图怎么制作更方便？甘特图制作方法

[置顶]OKR的实施标准步骤是什么？成功实施落地OKR的要点

Spark为什么快，Spark SQL 一定比 Hive 快吗

【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

【SparkAPI Java版】JavaPairRDD——cartesian（三）

spark 解决了 hadoop 的哪些问题(spark VS MR)

【SparkAPI】JavaPairRDD——countByKey、countByKeyApprox

JVM(和 Spark)性能优化：使用Java Mission Control (1)

Spark 概述

「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化

【SparkAPI Java版】JavaPairRDD——cache、persist、unpersist、getStorageL

spark streaming 连接kafka引发"partition.assignment.strategy"异常处理

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热门文章

友情链接

Spark

[置顶]甘特图怎么制作更方便？甘特图制作方法

[置顶]OKR的实施标准步骤是什么？成功实施落地OKR的要点

Spark为什么快，Spark SQL 一定比 Hive 快吗

【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

【SparkAPI Java版】JavaPairRDD——cartesian（三）

spark 解决了 hadoop 的哪些问题(spark VS MR)

【SparkAPI】JavaPairRDD——countByKey、countByKeyApprox

JVM(和Spark)性能优化：使用Java Mission Control (1)

「Spark从精通到重新入门(一)」Spark 中不可不知的动态优化

【SparkAPI Java版】JavaPairRDD——cache、persist、unpersist、getStorageL

spark streaming连接kafka引发"partition.assignment.strategy"异常处理

推荐文章

最近发表

热门文章

友情链接

JVM(和 Spark)性能优化：使用Java Mission Control (1)

spark streaming 连接kafka引发"partition.assignment.strategy"异常处理