2021年大数据Spark（二）：四大特点-伙伴云

2021年大数据 Spark（二）：四大特点

网友投稿 904 2022-05-29

Spark 四大特点

2021年大数据Spark（二）：四大特点

速度快

易于使用

通用性强

运行方式

Spark 四大特点

Spark 使用Scala语言进行实现，它是一种面向对、函数式编程语言，能够像操作本地集合一样轻松的操作分布式数据集。Spark具有运行速度快、易用性好、通用性强和随处运行等特点。

速度快

由于Apache Spark支持内存计算，并且通过DAG（有向无环图）执行引擎支持无环数据流，所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍，在硬盘中要快10倍。

Spark处理数据与MapReduce处理数据相比，有如下两个不同点：

其一、Spark处理数据时，可以将中间处理结果数据存储到内存中；

其二、Spark Job调度以DAG方式，并且每个任务Task执行以线程（Thread）方式，并不是像MapReduce以进程（Process）方式执行。

2014 年的如此Benchmark测试中，Spark 秒杀Hadoop，在使用十分之一计算资源的情况下，相同数据的排序上，Spark 比Map Reduce快3倍！

易于使用

Spark 的版本已经更新到 Spark 2.4.5（截止日期2020.05.01），支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。

通用性强

在 Spark 的基础上，Spark 还提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库，我们可以在一个应用中无缝地使用这些工具库。其中，Spark SQL 提供了结构化的数据处理方式，Spark Streaming 主要针对流式处理任务（也是本书的重点），MLlib提供了很多有用的机器学习算法库，GraphX提供图形和图形并行化计算。

运行方式

Spark 支持多种运行方式，包括在 Hadoop 和 Mesos 上，也支持 Standalone的独立运行模式，同时也可以运行在云Kubernetes（Spark 2.3开始支持）上。

对于数据源而言，Spark 支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。

spark 大数据

销售报表分析的秘密，掌握数据让业绩飞跃

904 2022-05-29

2021年大数据 Spark（二）：四大特点

选择适合你的库存盘点软件指南

电商ERP解决方案助力企业实现业务飞跃

销售报表分析的秘密，掌握数据让业绩飞跃

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

定制订单管理系统（为特定需求定制的订单管理系统）

什么是在线文档？怎么发在线文档

友情链接

2021年大数据Spark（二）：四大特点

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接

2021年大数据 Spark（二）：四大特点