【软通鲲鹏云最佳实践50】spark-2.3.3 鲲鹏云服务器安装实践

网友投稿 659 2022-05-29

一、 软件介绍

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。它拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

二、 支持的操作系统

经过华为云严格实测,以下操作系统在鲲鹏生态中可以完整运行spark的全部功能:

CentOS7.6

建议使用spark-2.3.3

-:

http://mirrors.hust.edu.cn/apache/spark/spark-2.3.3/spark-2.3.3-bin-hadoop2.7.tgz

四、 编译与测试环境

本文选用华为鲲鹏云服务器ECS KC1实例做测试,KC1实例的处理器为兼容ARMv8指令集的鲲鹏920。详细规格如下:

类别

子项

版本

云主机配置

ECS实例类型

kc1.large.4

ECS配置

4U16GB

EVS

【软通鲲鹏云最佳实践50】spark-2.3.3 鲲鹏云服务器安装实践

高IO(80GB)

云OS

Kernel

4.18.0

五、 编译安装与测试

1 依赖安装

1) Java版本建议在1.8.0以上版本。

执行如下命令,安装java-1.8.0:

yum install java-1.8.0-openjdk

2) 设置环境变量。

vim /etc/profile export JAVA_HOME=/usr/lib/jvm/jre source /etc/profile

2 编译安装

1) 执行下面命令,下载并解压软件包。

cd /opt/ tar –zxvf spark-2.3.3-bin-hadoop2.7.tgz

3 验证测试

1) 执行如下命令,验证spark安装结果。

/opt/spark-2.3.3-bin-hadoop2.7/sbin/start-master.sh /opt/spark-2.3.3-bin-hadoop2.7/start-slave.sh spark://ecs-a6fe-0001:7077 ecs-a6fe-0001为主机名

2) 在浏览器里访问http://IP:8080,出现如下页面表示安装成功。

4 问题总结

六、 声明

本文档中的软件包均来自软件官网,安装文档部分参考官网的安装方法,本软件测试环境为华为鲲鹏云ARM服务器,具体配置信息参照《编译与测试环境》部分。

本文档中的软件安装测试基于华为鲲鹏云ARM服务器环境测试,如在使用本文档的安装方法进行安装过程中,可能由于系统版本、软件依赖或其他原因造成软件安装不成功,请自行解决或联系我们,请事先备份相关重要数据、资料。

使用文档风险由用户自行承担,在适用法律允许的最大范围内,对因使用或不能使用本文档所产生的损害及风险,包括但不限于直接或间接的个人损害、商业赢利的丧失、贸易中断、商业信息的丢失或任何其它经济损失,我司不承担任何责任。

我司不担保所提供的软件功能及服务一定能满足用户的要求,也不担保服务不会中断,对服务的及时性、安全性、真实性、准确性都不作担保。

鲲鹏

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:【软通鲲鹏云最佳实践56】spark-2.2.3 鲲鹏云服务器安装实践
下一篇:【软通鲲鹏云最佳实践22】npm-5.6.0 鲲鹏云服务器安装实践
相关文章