Spark-第3页-伙伴云

Spark 第3页

Spark推出Tungsten计划用于提升Spark的性能与资源使用，其中为了消除JVM对象模型和GC代价，提供了UnsafeRow对象类型。它由jvm提供的sun.misc.Unsafe实现，内部存储的是二进制，继承自InternalRow，是SparkSQL中的中间算子的处理和输出数据类型。正是由于UnsafeRow的特殊性，我们发现在某些情况下可能会无法正确序列/持久化该类型，产生数据读取...

甘特图怎么制作更方便？甘特图制作方法" title="甘特图怎么制作更方便？甘特图制作方法" width="200" height="150">

[置顶]甘特图怎么制作更方便？甘特图制作方法

甘特图 •2025-03-31

本文关于甘特图怎么制作更方便？甘特图制作方法。其实现在制作甘特图的方式有多种多样，可以直接使用表格的方式来制作，或者是使用一些线上工具来制作甘特图都是可以的。今天针对于甘特图制作方式给大家详细的分享一...

数据分析甘特图制作甘特图甘特图工具
OKR的实施标准步骤是什么？成功实施落地OKR的要点" title="OKR的实施标准步骤是什么？成功实施落地OKR的要点" width="200" height="150">

[置顶]OKR的实施标准步骤是什么？成功实施落地OKR的要点

OKR管理 •2025-03-31

本文关于okr的实施标准步骤是什么？成功实施落地OKR的要点。其实有关于Okr工作法，相信很多人都有一定的了解。OKR定义为一个重要的思维框架和一个发展中的学科，旨在确保员工一起工作，并专注于做出可衡...

OKR OKR系统 okr管理
Spark避坑指南----UnsafeRow对象的持久化" title="Spark避坑指南----UnsafeRow对象的持久化" width="200" height="150">

Spark避坑指南----UnsafeRow对象的持久化

所有内容 •2025-03-31

Spark推出Tungsten计划用于提升Spark的性能与资源使用，其中为了消除JVM对象模型和GC代价，提供了UnsafeRow对象类型。它由jvm提供的sun.misc.Unsafe实现，内部存...

Spark 指南
Spark】(task1)PySpark基础数据处理" title="【Spark】(task1)PySpark基础数据处理" width="200" height="150">

【Spark】(task1)PySpark基础数据处理

所有内容 •2025-03-31

学习总结文章目录学习总结一、Spark介绍 1.1 Scala和PySpark 1.2 Spark原理 1.3 一个具体栗子二、安装方式三、测试是否安装成功四、Spark程序的模块分类五...

Spark task
一下spark的几种部署方式" title="讲一下spark的几种部署方式" width="200" height="150">

讲一下spark的几种部署方式

所有内容 •2025-03-31

讲一下spark的几种部署方式目前,除了local模式为本地调试模式以为, Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN...

一下 Spark 几种
Spark中的算子都有哪些" title="Spark中的算子都有哪些" width="200" height="150">

Spark中的算子都有哪些

所有内容 •2025-03-31

Spark中的算子都有哪些总的来说,spark分为三大类算子: Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理； Transformation 操作是延...

Spark 算子
入门" title="spark入门" width="200" height="150">

spark 入门

所有内容 •2025-03-31

1. Spark概述 1.1. 什么是Spark（官网： http://spark.apache.org ） Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AM...

Spark 入门
hadoop 和 spark 的相同点和不同点？

所有内容 •2025-03-31

hadoop 和 spark 的相同点和不同点？ Hadoop 底层使用 MapReduce 计算架构，只有 map 和 reduce 两种操作，表达能力比较欠缺，而且在 MR 过程中会重复的读写 h...

Hadoop Spark
submit 参数设置" title="spark-submit 参数设置" width="200" height="150">

spark-submit 参数设置

所有内容 •2025-03-31

在使用spark时，根据集群资源情况和任务数据量等，合理设置参数，包括但不限于以下： (1)executor_cores*num_executors 表示的是能够并行执行Task的数目不宜太小或太大！...

Spark submit 参数
Spark之【RDD编程进阶】——累加器与广播变量的使用" title="Spark之【RDD编程进阶】——累加器与广播变量的使用" width="200" height="150">

Spark之【RDD编程进阶】——累加器与广播变量的使用

所有内容 •2025-03-31

上一篇博客博主已经为大家介绍了Spark中数据读取与保存，这一篇博客则带来了Spark中的编程进阶。其中就涉及到了累加器与广播变量的使用。文章目录 RDD编程进阶 1.累加器 1.1系统累加器 2....

Spark 编程
数据湖应用解析：Spark on Elasticsearch一致性问题

所有内容 •2022-05-30

1. 概述 Spark与Elasticsearch（es）的结合，是近年来大数据解决方案很火热的一个话题。一个是出色的分布式计算引擎，另一个是出色的搜索引擎。近年来，越来越多的成熟方案落地到行业产...

数据湖应用解析 Spark
2021年大数据Spark（十）：环境搭建集群模式 Spark on YARN

所有内容 •2022-05-30

目录环境搭建-Spark on YARN 注意事项 Spark On Yarn的本质? Spark On Yarn需要啥? 总结: 修改配置修改spark-env.sh 整合历史服务器并关闭资源检...

2021年大数据 Spark