《Spark数据分析：基于Python语言》

《Spark数据分析：基于Python语言》 —1.2　Spark简介

网友投稿 923 2022-05-29

1.2　Spark简介

Apache Spark是为了提升Hadoop中MapReduce的效率而创建的。Spark还提供了无可匹敌的可扩展性，是数据处理中高效的瑞士***，提供SQL访问、流式数据处理、图计算、NoSQL处理、机器学习等功能。

1.2.1　Spark背景

Apache Spark是开源的分布式数据处理项目，由Matei Zaharia在2009年创建于加州大学伯克利分校RAD实验室。Spark是作为科研项目Mesos的一部分创建出来的，设计初衷是寻找作为MapReduce的替代品来进行资源调度和系统协调。（关于Mesos的更多信息可以参考http://mesos.apache.org/）

Spark成为了在Hadoop上使用传统MapReduce的一种替代品，因为传统MapReduce并不适合交互式查询，或者实时的低延迟的应用等场景。Hadoop的MapReduce实现的主要缺点是映射阶段和归约阶段之间的中间数据始终都会持久化到硬盘上。

作为MapReduce的替代品，Spark实现了一个分布式的容错性内存结构，名为弹性分布式数据集（RDD）。Spark在多节点上尽可能多地使用内存，显著提高了整体性能。Spark可以复用这些内存结构，使得Spark不仅适用于交互式查询，也能适用于迭代型机器学习应用。

Spark是用Scala编写的，而后者是基于Java虚拟机（JVM）和Java运行时构建的。因此Spark成为了跨平台应用，既能运行在Windows上也能运行在Linux上。很多人认为Spark会是Hadoop数据处理的未来。

Spark让开发者可以创建复杂的多阶段数据处理流程，提供了高级API和容错的框架，这样开发者可以专注于逻辑，而不用分心于硬件故障这样的基础架构或环境方面的问题。

Spark是Apache软件基金会的顶级项目，拥有来自Facebook、雅虎、英特尔、Netflix、Databricks等公司和其他一些公司的超过400名代码贡献者和代码提交者。

《Spark数据分析：基于Python语言》 —1.2　Spark简介

Spark python spark Python

免费做h5的平台有哪些？（哪里可以免费做h5）

923 2022-05-29

《Spark数据分析：基于Python语言》 —1.2　Spark简介

关于机器学习的三个阶段

免费做h5的平台有哪些？（哪里可以免费做h5）

关于机器学习的应用有哪些

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

智能定制家居管理系统：重新定义家庭生活方式

Excel项目进度表模板，简化您的项目进度管理

友情链接

《Spark数据分析：基于Python语言 》 —1.2 Spark简介

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接

《Spark数据分析：基于Python语言》 —1.2　Spark简介