关于机器学习的三个阶段
636
2022-05-29
一、 软件介绍
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。它拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
二、 支持的操作系统
经过华为云严格实测,以下操作系统在鲲鹏生态中可以完整运行spark的全部功能:
CentOS7.6
建议使用spark-2.3.3
-:
http://mirrors.hust.edu.cn/apache/spark/spark-2.3.3/spark-2.3.3-bin-hadoop2.7.tgz
四、 编译与测试环境
本文选用华为鲲鹏云服务器ECS KC1实例做测试,KC1实例的处理器为兼容ARMv8指令集的鲲鹏920。详细规格如下:
类别
子项
版本
云主机配置
ECS实例类型
kc1.large.4
ECS配置
4U16GB
EVS
高IO(80GB)
云OS
Kernel
4.18.0
五、 编译安装与测试
1 依赖安装
1) Java版本建议在1.8.0以上版本。
执行如下命令,安装java-1.8.0:
yum install java-1.8.0-openjdk
2) 设置环境变量。
vim /etc/profile
export JAVA_HOME=/usr/lib/jvm/jre
source /etc/profile
2 编译安装
1) 执行下面命令,下载并解压软件包。
cd /opt/
tar –zxvf spark-2.3.3-bin-hadoop2.7.tgz
3 验证测试
1) 执行如下命令,验证spark安装结果。
/opt/spark-2.3.3-bin-hadoop2.7/sbin/start-master.sh
/opt/spark-2.3.3-bin-hadoop2.7/start-slave.sh spark://ecs-a6fe-0001:7077
ecs-a6fe-0001为主机名
2) 在浏览器里访问http://IP:8080,出现如下页面表示安装成功。
4 问题总结
无
六、 声明
本文档中的软件包均来自软件官网,安装文档部分参考官网的安装方法,本软件测试环境为华为鲲鹏云ARM服务器,具体配置信息参照《编译与测试环境》部分。
本文档中的软件安装测试基于华为鲲鹏云ARM服务器环境测试,如在使用本文档的安装方法进行安装过程中,可能由于系统版本、软件依赖或其他原因造成软件安装不成功,请自行解决或联系我们,请事先备份相关重要数据、资料。
使用文档风险由用户自行承担,在适用法律允许的最大范围内,对因使用或不能使用本文档所产生的损害及风险,包括但不限于直接或间接的个人损害、商业赢利的丧失、贸易中断、商业信息的丢失或任何其它经济损失,我司不承担任何责任。
我司不担保所提供的软件功能及服务一定能满足用户的要求,也不担保服务不会中断,对服务的及时性、安全性、真实性、准确性都不作担保。
鲲鹏
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。