【软通鲲鹏云最佳实践50】spark-2.3.3 鲲鹏云服务器安装实践

网友投稿 659 2022-05-29

一、软件介绍

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。它拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

二、支持的操作系统

经过华为云严格实测，以下操作系统在鲲鹏生态中可以完整运行spark的全部功能：

CentOS7.6

建议使用spark-2.3.3

-：

http://mirrors.hust.edu.cn/apache/spark/spark-2.3.3/spark-2.3.3-bin-hadoop2.7.tgz

四、编译与测试环境

本文选用华为鲲鹏云服务器ECS KC1实例做测试，KC1实例的处理器为兼容ARMv8指令集的鲲鹏920。详细规格如下：

类别

子项

版本

云主机配置

ECS实例类型

kc1.large.4

ECS配置

4U16GB

EVS

【软通鲲鹏云最佳实践50】spark-2.3.3 鲲鹏云服务器安装实践

高IO(80GB)

云OS

Kernel

4.18.0

五、编译安装与测试

1 依赖安装

1) Java版本建议在1.8.0以上版本。

执行如下命令，安装java-1.8.0：

yum install java-1.8.0-openjdk

2) 设置环境变量。

vim /etc/profile export JAVA_HOME=/usr/lib/jvm/jre source /etc/profile

2 编译安装

1) 执行下面命令，下载并解压软件包。

cd /opt/ tar –zxvf spark-2.3.3-bin-hadoop2.7.tgz

3 验证测试

1) 执行如下命令，验证spark安装结果。

/opt/spark-2.3.3-bin-hadoop2.7/sbin/start-master.sh /opt/spark-2.3.3-bin-hadoop2.7/start-slave.sh spark://ecs-a6fe-0001:7077 ecs-a6fe-0001为主机名

2) 在浏览器里访问http://IP:8080，出现如下页面表示安装成功。

4 问题总结

无

六、声明

本文档中的软件包均来自软件官网，安装文档部分参考官网的安装方法，本软件测试环境为华为鲲鹏云ARM服务器，具体配置信息参照《编译与测试环境》部分。

本文档中的软件安装测试基于华为鲲鹏云ARM服务器环境测试，如在使用本文档的安装方法进行安装过程中，可能由于系统版本、软件依赖或其他原因造成软件安装不成功，请自行解决或联系我们，请事先备份相关重要数据、资料。

使用文档风险由用户自行承担，在适用法律允许的最大范围内，对因使用或不能使用本文档所产生的损害及风险，包括但不限于直接或间接的个人损害、商业赢利的丧失、贸易中断、商业信息的丢失或任何其它经济损失，我司不承担任何责任。

我司不担保所提供的软件功能及服务一定能满足用户的要求，也不担保服务不会中断，对服务的及时性、安全性、真实性、准确性都不作担保。

鲲鹏

标签：鲲鹏云服务器机器学习

【软通鲲鹏云最佳实践50】spark-2.3.3 鲲鹏云服务器安装实践

关于机器学习的三个阶段

关于机器学习的应用有哪些

机器学习的分类有哪些呢

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

简单进销存库存管理盘点

友情链接