《Spark数据分析：基于Python语言》 —2.5　在Windows上安装Spark-伙伴云

《Spark 数据分析：基于Python语言》 —2.5　在Windows上安装Spark

网友投稿 668 2022-05-30

2.5　在Windows上安装Spark

《Spark数据分析：基于Python语言》 —2.5　在Windows上安装Spark

在Windows上安装Spark比在Linux或Mac OS X上更麻烦一些，因为要先解决Python和Java等依赖的安装。本例使用Windows Server 2012，也就是服务器版本的Windows 8.1。你需要有能解压.tar.gz和.gz格式压缩包的解压工具，因为Windows对这些压缩包格式没有原生支持。7-Zip就是一款符合要求的工具，你可以从http://7-zip.org/download.html下载。等安装好了所需的解压工具，就请按如下步骤做：

1）安装Python。如前所述，Windows中没有预装Python，所以需要自行下载并安装。可以从https://www.python.org/getit/或者https://www.python.org/downloads/windows/获取Python

的Windows安装器。本例使用的Python版本是2.7.10，因此把C:\Python27作为安装的目标路径。

2）安装Java。在本例中，你会下载并安装最新版的Oracle JDK。可以从http://www.oracle.com/technetwork/java/javase/downloads/index.html下载针对Windows的安装包。在Windows命令提示符中输入java -version，如果看到返回了所安装的版本信息，就说明Java已经正确安装并可以通过系统的环境变量PATH访问到。

3）下载并解压Hadoop。从http://hadoop.apache.org/releases.html下载最新版本的Hadoop。解压下载的包（使用7-Zip或者类似的解压工具）到一个本地目录中，比如C:\Hadoop。

4）安装用于Windows的Hadoop二进制文件。为了能在Windows上运行Spark，你还需要几个针对Windows编译的Hadoop二进制文件，包括hadoop.dll和winutils.exe。Hadoop所需的这些Windows专用的库和可执行文件可以从https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-winutils获取。下载hadoop-winutils压缩包，解压到Hadoop安装路径的bin子目录（C:\Hadoop\bin）下。

5）下载并解压Spark。从https://spark.apache.org/downloads.html下载最新的正式版Spark，如例2.2所示。前面讲过应该下载包含Hadoop支持的预编译版本，其中Hadoop的版本需要和第3步中使用的版本对应。把Spark解压到一个本地目录中，比如C:\Spark。

6）关闭IPv6。以管理员身份运行Windows的命令提示符程序，并运行如下命令，关闭Java应用的IPv6功能：

如果你使用的是Windows PowerShell，你可以输入下面所示的等价命令：

注意这些命令需要以本地的管理员身份执行。为了简单起见，本例展示的所有配置项都在用户层面进行设置。其实你也可以选择把列出的这些设置应用到整个机器的层面。这样，当系统中有多用户时就都可以使用了。请查询微软官方的Windows文档来获取更多相关信息。

7）设置必要的环境变量。在Windows命令提示符里运行如下命令，设置环境变量HADOOP_HOME：

下面是使用Windows PowerShell提示符时的等价命令：

8）设置本地元数据存储。你需要为本地元数据存储创建一个文件夹，并设置适当的权限。第6章开始介绍Spark SQL时，会具体介绍元数据存储的作用。就目前而言，只要从Windows或者PowerShell的命令提示符运行如下命令就行了：

9）测试安装结果。打开一个Windows命令提示符页面或PowerShell会话，修改工作路径到Spark安装路径的bin目录，如下所示：

接下来，输入pyspark命令打开Spark的交互式Python shell：

图2.3展示了使用Windows PowerShell时预期的输出结果。

输入quit()以退出该shell界面。

现在，在命令提示符里执行如下命令，来运行Spark内置的圆周率估算例程：

现在你应该会看到大量的信息型日志消息。在这些消息之中，你应该会看到类似如下消息的输出：

恭喜！刚才你已经成功地在Windows上安装并测试了Spark。

图2.3　Windows PowerShell里运行的pyspark

Spark python spark Python

销售报表分析的秘密，掌握数据让业绩飞跃

668 2022-05-30

《Spark 数据 分析：基于Python语言》 —2.5　在Windows上安装Spark

选择适合你的库存盘点软件指南

电商ERP解决方案助力企业实现业务飞跃

销售报表分析的秘密，掌握数据让业绩飞跃

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

定制订单管理系统（为特定需求定制的订单管理系统）

什么是在线文档？怎么发在线文档

友情链接

《Spark数据分析：基于Python语言 》 —2.5 在Windows上安装Spark

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接

《Spark 数据分析：基于Python语言》 —2.5　在Windows上安装Spark