1、相关资源包下载
版本依赖关系:
参考自https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
NVIDIA(455.38)驱动下载链接:http://www.nvidia.com/Download/Find.aspx
Cuda(10.0.130)下载链接:https://developer.nvidia.com/cuda-toolkit-archive
Cudnn(7.6.5)下载链接:https://developer.nvidia.com/rdp/cudnn-archive
2、关闭Nouveau
cd /etc/modprobe.d
## 如果没有blacklist.conf文件,则需要创建
vim blacklist.conf
## 添加以下内容
blacklist nouveau
## 重新建立the initramfs file
sudo dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
## 重新启动
reboot
## 之后即可安装NVIDIA driver
参考自https://blog.csdn.net/weixin_33800463/article/details/92967455
3、NVIDIA驱动安装
Linux 驱动安装采用 Shell 脚本安装方式,适用于任何 Linux 发行版,包括 CentOS,Ubuntu 等。NVIDIA GeForce GPU 的 Linux 驱动在安装过程中需要编译 kernel module,系统需提前安装 gcc 和编译 Linux Kernel Module 所依赖的包,例如 kernel-devel-$(uname -r) 等。
(1)执行以下命令,检查当前系统中是否已安装 dkms。
rpm -qa | grep -i dkms
返回结果如下图,则表示已安装 dkms。![]()
如未安装 dkms,则执行以下命令进行安装。
sudo yum install -y dkms
若安装过程中,出现以下问题,则可能缺乏epel,执行安装epel-release即可
yum install epel-release
(2)下载安装包
登录 http://www.nvidia.com/Download/Find.aspx下载需要的安装包
由于现有的显卡的类别未GeForce,因此将设置以下参数
选取latest版本455.38进行安装下载。
wget https://us.download.nvidia.com/XFree86/Linux-x86_64/455.38/NVIDIA-Linux-x86_64-455.38.run## 可选择在线安装,也可以选择离线下载再上传安装
(3)安装驱动
## 对安装包添加执行权限
chmod +x NVIDIA-Linux-x86_64-455.38.run
## 检查当前系统中是否已安装 gcc 和 kernel-devel 包。
rpm -qa | grep kernel-devel
rpm -qa | grep gcc
## 返回结果如下,则表示已安装 gcc 和 kernel-devel。
## 如未安装,则请执行以下命令进行安装。
sudo yum install -y gcc kernel-devel
## 执行以下命令,运行驱动安装程序,并按提示进行后续操作
sudo sh NVIDIA-Linux-x86_64-418.126.02.run
## 安装完成后,执行以下命令进行验证
nvidia-smi

出现以上界面,则安装成功
参数介绍
Fan:显示风扇转速,数值在0到100%之间,是计算机的期望转速,如果计算机不是通过风扇冷却或者风扇坏了,显示出来就是N/A;
Temp:显卡内部的温度,单位是摄氏度;
Perf:表征性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能;
Pwr:能耗表示;
Bus-Id:涉及GPU总线的相关信息;
Disp.A:是Display Active的意思,表示GPU的显示是否初始化;
Memory Usage:显存的使用率;
Volatile GPU-Util:浮动的GPU利用率;
Compute M:计算模式;
下边的Processes显示每块GPU上每个进程所使用的显存情况。
参考自https://cloud.tencent.com/document/product/560/8048
4、CUDA安装
(1)安装包下载
https://developer.nvidia.com/cuda-toolkit-archive
本实验采用的cuda版本为10.0.130
wget https://developer.nvidia.com/compute/cuda/10.0/Prod/local_installers/cuda_10.0.130_410.48_linux
(2)安装
## 添加安装包操作权限
sudo chmod +x cuda_10.0.130_410.48_linux
## 安装
sudo ./cuda_10.0.130_410.48_linux
## 安装完毕后重启系统
reboot
(3)配置
echo 'export PATH=/usr/local/cuda/bin:$PATH' | sudo tee /etc/profile.d/cuda.sh
source /etc/profile
(4)测试
cd /usr/local/cuda-10.1/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery
## 如返回结果显示 Result=PASS,则表示 CUDA 安装成功。
## 若执行 make 命令后,出现如下图所示错误。

则执行以下命令,安装对应的 gcc 包即可。
yum install -y gcc-c++
安装完成后,再次进行安装配置
参考自https://cloud.tencent.com/document/product/560/8064
5、CUDNN安装
(1)下载
访问链接https://developer.nvidia.com/rdp/cudnn-archive,选择适合cuda10.0的cudnn(linux版本)下载
wget https://developer.nvidia.com/compute/machine-learning/cudnn/secure/7.6.5.32/Production/10.0_20191031/cudnn-10.0-linux-x64-v7.6.5.32.tgz
(2)安装
cudnn的安装过程比较简单,下载后是一个.solitairetheme8文件,首先修改文件后缀为.tgz,然后解压压缩包,将解压后的文件放在cuda的路径中即可
## 修改文件后缀
mv cudnn-10.0-linux-x64-v7.6.5.32.solitairetheme8 cudnn-10.0-linux-x64-v7.6.5.32.tgz
## 解压
tar -zxvf cudnn-10.0-linux-x64-v7.6.5.32.tgz
## 移动文件
cd cuda
sudo cp lib64/lib* /usr/local/cuda/lib64/
sudo cp include/cudnn.h /usr/local/cuda/include/
参考自https://www.cnblogs.com/tanwc/p/9375161.html
(3)测试
## 查看cuda版本
cat /usr/local/cuda/version.txt
## 查看cudnn版本
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
出现以下结果,则说明cuda和cudnn均安装成功,同时版本符合要求
参考自https://www.cnblogs.com/tanwc/p/9375161.html
6、问题解决
问题一:无法连接NVIDIA驱动:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver
## 检查驱动是否存在
nvcc -V

## 安装dkms
sudo yum install dkms
## 获取显卡驱动版本号
ls /usr/src | grep nvidia
![]()
## 安装
sudo dkms install -m nvidia -v 455.38
问题二:conda command not find
source ~/.bashrc
7、其他
## linux 中如何解压文件 比如 .tar.gz 用tar
tar -xzvf .tar.gz
## 生成anaconda的虚拟环境:在ananconda/envs下查找到需要使用到的虚拟环境包,将其打包称tar.gz的文件包即可
tar -zcvf tensorflow-gpu.tar.gz tensorflow-gpu
## anaconda虚拟环境的使用
./bin/python