张小白带你体验MindSpore 1.1的新特性:单节点缓存Cache(1)CPU环境下的Cache体验
668
2022-05-29
ubuntu和Nvidia好像就是天然死对头似的,去年张小白使用ThinkPad P52工作站的Quardo P1000(4G)显卡安装Ubuntu 18.04的时候,就遇到过一系列问题。
当时张小白还写过一篇博客:
张小白GPU安装MindSpore给你看(Ubuntu 18.04.5) https://bbs.huaweicloud.com/blogs/198357
这次是新出炉的Nvidia GeoForce RTX 3080 Laptop显卡,张小白仍然遇到了不少幺蛾子。
好在张小白的心理足够强大,他的朋友圈也足够强大。所以遇到难题都一一化解了。
其实有了上次裸装Ubuntu的经验,这次本来安装Nvidia显卡驱动应该是很快的事情。
比如,应该先删除旧的nvidia驱动:
sudo apt-get purge nvidia*
。。。
sudo vi /etc/modprobe.d/blacklist-nouveau.conf
添加以下内容:
blacklist nouveau options nouveau modeset=0
sudo update-initramfs -u
重启机器。
sync
sync
sudo reboot
确认nouveau是否已被禁用:
lsmod | grep nouveau
这个时候ubuntu还是有图形界面的。
init 3
先安装gcc,g++,make的ubuntu自带的软件包:
sudo apt install gcc
sudo apt install g++
sudo apt install make
到Nvidia官网下载对应的显卡驱动
打开 https://www.nvidia.cn/Download/index.aspx?lang=cn
按以下方式选择后,点击搜索:
在弹出的结果页面点击download即可下载nvidia驱动。(看support页签是支持3080移动版显卡的)
下载链接如下:
https://us.download.nvidia.com/XFree86/Linux-x86_64/470.86/NVIDIA-Linux-x86_64-470.86.run
下载完毕后将其传到ubuntu服务器上。(或者直接wget下载也行)
由于前面下载类型的选择不同,当时张小白下载的是460.91.03版本:
sudo ./NVIDIA-Linux-x86_64-460.91.03.run -no-x-check -no-nouveau-check -no-opengl-files
进入了界面:
选择continue installation:
一个警告可以忽视掉,好像是32位兼容的什么问题。
问要不要更新X配置。暂时选择No吧。
安装完毕:
查看nvidia-smi:
重启下机器后,ubuntu进不了图形界面了:
但可以按ctrl-alt-F2/F3..进入终端,还可以登录:
张小白又拿前面下载好的 NVIDIA-Linux-x86_64-470.86.run 驱动试了一下,nvidia-smi显示降级了,但是依然报前面的错。
张小白怀疑是CUDA版本问题(当然这种判断后来证明是错误的),于是下载了CUDA 10.1安装盘,然后开始安装:
sudo sh cuda_10.1.105_418.39_linux.run
进入界面:
输入accept
只选 CUDA ToolKit 10.1 ,其他统统不选
选择install
修改PATH和LD_LIBRARY_PATH
export PATH=/usr/local/cuda-10.1/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda-10.1/lib64:$LD_LIBRARY_PATH
执行. ~/.bashrc 使得环境变量生效。
打开 https://developer.nvidia.com/rdp/cudnn-archive
下载CUDA 10.1对应的cuDNN 7.6.X的版本:
下载7.6.5吧:
点击Linux版本后:
需要登录:
输入邮箱和密码后:
点击登录:
nvidia会发给你一个邮件:
收到邮件后,点击verify。
前面的页面即可开始下载:
耐心等待下载结束:
上传到ubuntu:
tar -zxvf cudnn*.tgz
将两个目录下的文件拷贝到/usr/local/cuda-10.1对应的目录下去:
cd cuda
sudo cp ./include/* /usr/local/cuda-10.1/include/
sudo cp ./lib64/* /usr/local/cuda-10.1/lib64/
再重启机器,还是老样子:
那么升级到CUDA11.1试一下吧。
打开:https://developer.nvidia.com/cuda-11.1.0-download-archive
下载cuda11.1
wget https://developer.download.nvidia.com/compute/cuda/11.1.0/local_installers/cuda_11.1.0_455.23.05_linux.run
安装11.1的CUDA
sudo sh cuda_11.1.0_455.23.05_linux.run
accept
要不要降级看看能不能匹配上。因为前面 nvidia-smi显示11.2版本,现在这个是11.1版本:
出现提示:
打yes就是,以前指向10.1,现在指向11.1
安装完毕。同样提示修改一下.bashrc
那就更新下吧:
使得环境变量生效:
. ~/.bashrc
同样的方式下载cuda11.1对应的8.0.5
传到ubuntu上:
解压
tar -zxvf cudnn cudnn-11.1-linux-x64-v8.0.5.39.tgz
老样子,拷贝到/usr/local/cuda-11.1/include和lib64目录:
再重启,还是老样子:
张小白没招了,在模型营的群里面问了一句,还有办法吗?还有王法吗?
@Nishizumimiho 同学给了张小白一个方案:在Ubuntu的系统更新页面去更新驱动。
他还贴出了友好的界面:
张小白恍然大悟,他打开了ubuntu系统更新(software & updates)的页面,切换到Additional Drivers页签,原来的选择是最后一个:
张小白将其改为第一个,然后点击Apply Changes:
耐心等待系统Applying结束:
虽然ubuntu 18.04并没有认出这是个3080显卡。(@Nishizumimiho 的1080Ti的显卡型号可是清清楚楚的显示出来的)
但是到底行不行呢?重启一下试试。
居然有图形界面了!
安装Ubuntu上的Nvidia显卡真的蛮不容易的——张小白感慨地说。
(未完待续)
AI GPU加速云服务器 MindSpore Ubuntu
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。