Spark 第8页
-
[置顶]甘特图怎么制作更方便?甘特图制作方法
本文关于甘特图怎么制作更方便?甘特图制作方法。其实现在制作甘特图的方式有多种多样,可以直接使用表格的方式来制作,或者是使用一些线上工具来制作甘特图都是可以的。今天针对于甘特图制作方式给大家详细的分享一...
-
[置顶]okr的实施标准步骤是什么?成功实施落地OKR的要点
本文关于okr的实施标准步骤是什么?成功实施落地OKR的要点。其实有关于Okr工作法,相信很多人都有一定的了解。OKR定义为一个重要的思维框架和一个发展中的学科,旨在确保员工一起工作,并专注于做出可衡...
-
Spark性能优化 (1) | 常规性能调优
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯...
-
Spark任务参数优化
当我们提交Spark作业的时候,Spark作业会启动Driver进程去运行Application的main()函数,并且创建SparkContext,然后通过SparkContext与集群管理器申请S...
-
2021年大数据Spark(二十二):内核原理
目录 Spark内核原理 RDD 依赖 窄依赖(Narrow Dependency) Shuffle 依赖(宽依赖 Wide Dependency) 如何区分宽窄依赖 DAG和Stage 词汇表 Sp...
-
Spark内存管理解析
Spark是一个基于内存的分布式计算引擎,为了更为高效地利用内存,并减少OOM等内存问题,Spark对JVM内存模型进行了进一步的管理规划,在其之上实现了自己的内存管理模型。本文将基于spark.me...
-
Spark shuffle介绍:概述
在基于mapreduce思想的计算模型里,Shuffle是map和reduce的纽带。计算框架对大数据分而治之,对处理数据进行分块并行处理,当需要对分块数据做聚合处理时,多个分块的数据在map阶段转为...
-
Spark内核详解 (7) | Spark 内存管理
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯...
-
Spark性能优化 (3) | Shuffle 调优
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯...
-
Spark shuffle介绍:shuffle data生命周期
shuffle data持久化在磁盘上,如果一直不清理,磁盘容易被撑爆。那shuffle data什么时候会被清理呢。一般来说可以分成3种场景: 1、spark application主动停止,需要清...
-
2021年大数据Spark(十八):Spark Core的RDD Checkpoint
目录 RDD Checkpoint 引入 API 代码演示 总结:持久化和Checkpoint的区别 问题: 答案: 区别: RDD Checkpoint 引入 RDD 数据可以持久化,但是持久化/缓...
-
Spark为什么快,Spark SQL 一定比 Hive 快吗
Spark为什么快,Spark SQL 一定比 Hive 快吗 Spark SQL 比 Hadoop Hive 快,是有一定条件的,而且不是 Spark SQL 的引擎比 Hive 的引擎快,相反,H...