从python编译到运行pyspark样例-伙伴云

从python编译到运行pyspark样例

网友投稿 1164 2022-05-30

MRS集群默认会带上Python2.7.5和Python3.8.0两个版本的Python。默认使用的是Python2.7.5。但是有时候我们希望使用的是我们指定的Python版本来运行pyspark任务，因此需要自行上传对应的Python版本包。由于Python较依赖环境，不同环境编译出来的Python版本可能并不通用。目前遇到过因为libffi和libffi-devel版本不一致导致pyspark运行的时候报错。因此我们在上传Python版本压缩包之前最好在集群系统相同的Linux机器上编译对应的Python。

本文主要介绍从购买华为云ECS到运行pyspark的wordcount样例的过程。

1 准备环境

测试环境是一套MRS_3.1.0普通集群；

希望使用的Python版本是Python3.6.6；

1.1 购买华为云ECS

MRS使用的ECS系统版本一般都是EulerOS2.2或者EulerOS2.5，因此我们购买ECS的时候可以选择2.2或者2.5的EulerOS系统。

如果这个ECS只用于编译Python，需要的资源并不多，可以选择最低规格的ECS。本次测试使用的规格为：通用计算型-2U4G EulerOS2.2

另外最好给ECS配置上EIP，方便访问公网下载Python源码。

购买ECS具体操作参考：https://support.huaweicloud.com/qs-ecs/zh-cn_topic_0030831985.html

1.2 编译Python

使用以下命令安装三方依赖软件：

yum install zlib zlib-devel zip -y

下载对应Python版本源码：

wget https://www.python.org/ftp/python/3.6.6/Python-3.6.6.tgz

解压Python源码：

tar -zxvf Python-3.6.6.tgz

创建安装目录：

mkdir /opt/python36

从python编译到运行pyspark样例

编译Python：

cd Python-3.6.6 ./configure --prefix=/opt/python36

出现以下内容表明上述命令执行成功

make -j8

出现以下内容表明上述命令执行成功

make install

出现以下内容表明上述命令执行成功

至此，Python已经安装完成。

1.3 安装任务依赖模块

系统默认已经带上2.7版本Python，需要修改环境变量：

export PYTHON_HOME=/opt/python36 export PATH=$PYTHON_HOME/bin:$PATH

安装三方模块：

pip3 install helloword

本地测试是否安装成功：

使用python3进入python交互界面，执行以下代码：

import helloworld helloworld.say_hello("test")

如果出现以下内容则说明安装成功：

1.4 打包Python.zip

cd /opt/python36/ zip -r python36.zip ./*

将压缩包发送到需要使用的MRS客户端节点上，我们以客户端节点的/opt目录为存放位置。

2 测试运行

解压文件，配置环境变量：

cd /opt unzip python36.zip -d python36 export PYSPARK_PYTHON=/opt/python36/bin/python3

上传压缩包到HDFS上

hdfs dfs -mkdir /user/python hdfs dfs -put python36.zip /user/python

2.1 本地运行pyspark

使用pyspark启动local模式的交互界面，执行以下代码测试三方包是否生效：

>>> import helloworld Hello, Sara! >>> helloworld.say_hello("test") 'Hello, test!'

测试执行sql是否正常：

spark.sql("show tables").show() spark.sql("select count(*) from test1").show()

2.2 pyspark on yarn client模式

cd /opt pyspark --master yarn --deploy-mode client \ --conf spark.pyspark.python=./python36.zip/bin/python3 \ --conf spark.pyspark.driver.python=/opt/python36/bin/python3 \ --conf spark.yarn.dist.archives=hdfs://hacluster/user/python/python36.zip

因为client模式下driver是在客户端侧运行，因此需要对driver的python环境单独指定：

spark.pyspark.driver.python=/opt/python36/bin/python3

同样使用上一步的代码测试功能是否正常

增加测试executor是否拿到三方模块检查（/tmp/log1.txt是一个存放在hdfs上面的文本文件，内容不限定）：

from pyspark import SparkContext sc = SparkContext.getOrCreate() inputPath = "/tmp/log1.txt" lines = sc.textFile(name = inputPath) words = lines.flatMap(lambda line:line.split(" "),True) pairWords = words.map(lambda word:(helloworld.say_hello(word),1),True) result = pairWords.reduceByKey(lambda v1,v2:v1+v2) result.foreach(lambda t :print(t))

可以看到executor日志里面打印了相关信息：

将最终结果打印到控制台：

output=result.collect() print(output) for (word, count) in output: print(word,count)

2.3 spark-submit on yarn client模式

将上面的测试命令写到test.py脚本里面：

# -*- coding: utf-8 -* import helloworld from pyspark import SparkConf, SparkContext if __name__ == "__main__": helloworld.say_hello("test") #创建SparkConf conf = SparkConf().setAppName("wordcount") #创建SparkContext 注意参数要传递conf=conf sc = SparkContext(conf=conf) inputPath = "/tmp/log1.txt" lines = sc.textFile(name = inputPath) #每一行数据按照空格拆分得到一个个单词 words = lines.flatMap(lambda line:line.split(" "),True) #将每个单词组装成一个tuple 计数1 pairWords = words.map(lambda word:(helloworld.say_hello(word),1),True) #reduceByKey进行汇总 result = pairWords.reduceByKey(lambda v1,v2:v1+v2) #executor上打印结果 result.foreach(lambda t :print(t)) #搜集所有结果 output = result.collect() #打印汇总结果 ptint(output) #分开打印结果 for (word, count) in output: print(word,count) #退出任务 sc.stop()

启动命令：

spark-submit --master yarn --deploy-mode client \ --conf spark.pyspark.python=./Python/bin/python3 \ --conf spark.pyspark.driver.python=/opt/python36/bin/python3 \ --conf spark.yarn.dist.archives=hdfs://hacluster/user/python/python36.zip#Python \ test.py

查看executor日志和控制台打印内容，确认结果有被打印。

2.4 spark-submit on yarn cluster模式

依旧使用上面的test.py脚本运行任务。

启动命令：

spark-submit --master yarn --deploy-mode cluster \ --conf spark.pyspark.python=./Python/bin/python3 \ --conf spark.yarn.dist.archives=hdfs://hacluster/user/python/python36.zip#Python \ test.py

查看executor日志和driver日志打印内容，确认结果有被打印。

3 结论

至此所有操作步骤都执行完成。关键操作就是编译Python和spark on yarn的client与cluster模式下driver的Python环境配置。

参考文档：

https://bbs.huaweicloud.com/blogs/168935

MapReduce服务 spark

怎样关联电子邮件程序？（电子邮件程序有哪些）

1164 2022-05-30

从python编译到运行pyspark样例

怎样关联电子邮件程序？（电子邮件程序有哪些）

我是WPS的超级会员，为什么PDF转换Word的时候会显示我不是WPS的会员？（wps中pdf转成word文档要会员吗）

网络正常，但是上不了账号（原来的网络账号连接不了）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

智能定制家居管理系统：重新定义家庭生活方式

定制订单管理系统（为特定需求定制的订单管理系统）

友情链接

从python编译到运行pyspark样例

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接