Jupyter Notebook安装

网友投稿 746 2022-05-29

1 Jupyter notebook概述

Jupyter Notebook是一个开源Web应用程序,允许创建和共享包含实时代码、公式、可视化图形和文本描述的文档工具。它用途非常广泛,包括:数据清理和转换,数值模拟,统计建模,数据可视化和机器学习等。

它是一个交互式的笔记本,支持超过40种编程语言,可以通过网页的形式进行编程,即在网页中直接编写代码和运行代码,代码的运行结果也会直接在代码块下面进行显示。可以说非常方便。如果在编程过程中需要编写说明文档相关信息,可以使用Markdown直接进行编写,便于作及时的说明和解释。

2  Jupyter Notebook安装

下面介绍如何安装Jupyter Notebook,这里采用pip进行安装,命令如下:

[root@hadoop01 ~]# pip3 install jupyter

默认情况下,pip3安装软件的镜像是国外,可能会非常慢,因此建议更换默认的镜像,例如在CentOS 7下更换python pip3源为阿里源,具体操作如下:

Jupyter Notebook安装

创建.pip文件夹:

[root@hadoop01 ~]# mkdir ~/.pip

创建pip.conf配置文件:

[root@hadoop01 ~]# touch ~/.pip/pip.conf

修改pip.conf配置文件:

[root@hadoop01 ~]# vim ~/.pip/pip.conf

修改文件内容为:

[global] index-url=http://mirrors.aliyun.com/pypi/simple [install] trusted-host=mirrors.aliyun.com

Python经常用于数据分析和机器学习,但其只依赖Python本身自带的库进行数据分析还远远不够,因此需要安装第三方扩展库来增强数据分析能力。Python数据分析需要安装的第三方扩展库有:

NumPy

NumPy是一种开源的数值计算库。它可用来存储和处理大型矩阵(Matrix)的计算,比Python自身的嵌套列表结构要高效的多,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。

Pandas

Pandas是基于NumPy的一种工具,该工具是为了解决数据分析而创建。它纳入了大量的库和一些标准的数据模型,提供了高效的操作大型数据集所需的组件,能快速、便捷的处理数据。

SciPy

SciPy是一个开源科学计算库,偏重于符号计算。自2001年首次发布以来,SciPy已经成为Python语言中科学算法的行业标准。该项目拥有数以千计的相关开发包和超过150,000个依赖存储库。

Matplotlib

Matplotlib是一个2D绘图库,它可以用跨平台的交互式环境生成高质量的图形。开发者仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图和散点图等。而且生成的图形非常美观。

Scikit-Learn

Scikit-Learn是基于Python语言的机器学习工具,建立在NumPy、SciPy和Matplotlib工具之上,因此它是一款简单高效的数据挖掘和数据分析工具。它的基本功能主要分为6大部分:分类,回归,聚类,数据降维,模型选择和数据预处理。

Keras

Keras是一个由Python编写的开源人工神经网络库,可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口,进行深度学习模型的设计、调试、评估、应用和可视化。

在Jupyter Notebook中如果要访问Spark,还需要进行一些额外的配置,首先需要安装一个findspark的库,执行如下命令即可:

[root@hadoop01 ~]# pip3 install findspark

成功安装后,切换到/usr/local/python3/bin目录中,有jupyter命令工具,由于此目录并不在环境变量中,因此无法直接用jupyter notebook进行启动。如果不清楚jupyter工具安装在何处,则可以用find命令进行查找,如下所示:

[root@hadoop01 ~]# find / -name \jupyter

则输出界面如图所示。

用如下命令启动Jupyter Notebook:

[root@hadoop01 bin]# ./jupyter notebook --allow-root

在打开的web页面上,新建一个python记事本,然后输入如下脚本:

import findspark findspark.init() import pyspark import random sc = pyspark.SparkContext(appName="Pi") num_samples = 100000000 def inside(p): x, y = random.random(), random.random() return x*x + y*y < 1 count = sc.parallelize(range(0, num_samples)).filter(inside).count() pi = 4 * count / num_samples print(pi) sc.stop()

单击工具条上的运行按钮图标,即可运行。运行结果如图所示。

Jupyter Notebook中每个步骤执行的代码以及结果都可以以文件的形式进行保存,这样下次可以不用重复输入命令,只要重新执行即可。将上述示例保存文件夹为python01,则文件名为python01.ipynb。

对于很多操作而言,可以首先建立文件夹用于分组,然后在每个文件夹中创建文件来进行相关代码的编程。

此外,可以用如下命令进行扩展配置:

[root@hadoop01 bin]#pip3 install jupyter_nbextensions_configurator [root@hadoop01 bin]#./jupyter nbextensions_configurator enable –user

至此,还存在一个问题,就是不能在其他电脑上进行访问,配置远程访问Jupyter Notebook的过程。首先,输入ipython生成秘钥,设定一个密码(用于后续登录jupyter notebook),会生成一个sha1的秘钥。具体的这个过程,可以参考网上其他文章,这里不再赘述。

Jupyter notebook Python

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:ROS 2 ardent apalone安装和使用说明
下一篇:互联网共享经济与网络云化
相关文章