linux基于GTX1080TI的NVIDIA GPU驱动安装、配置、测试

1、相关资源包下载

版本依赖关系:
在这里插入图片描述
参考自https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
NVIDIA(455.38)驱动下载链接:http://www.nvidia.com/Download/Find.aspx
Cuda(10.0.130)下载链接:https://developer.nvidia.com/cuda-toolkit-archive
Cudnn(7.6.5)下载链接:https://developer.nvidia.com/rdp/cudnn-archive

2、关闭Nouveau

cd /etc/modprobe.d
## 如果没有blacklist.conf文件,则需要创建
vim blacklist.conf
## 添加以下内容
blacklist nouveau
## 重新建立the initramfs file
sudo dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
## 重新启动
reboot
## 之后即可安装NVIDIA driver

参考自https://blog.csdn.net/weixin_33800463/article/details/92967455

3、NVIDIA驱动安装

Linux 驱动安装采用 Shell 脚本安装方式,适用于任何 Linux 发行版,包括 CentOS,Ubuntu 等。NVIDIA GeForce GPU 的 Linux 驱动在安装过程中需要编译 kernel module,系统需提前安装 gcc 和编译 Linux Kernel Module 所依赖的包,例如 kernel-devel-$(uname -r) 等。

(1)执行以下命令,检查当前系统中是否已安装 dkms。

rpm -qa | grep -i dkms

返回结果如下图,则表示已安装 dkms。
在这里插入图片描述
如未安装 dkms,则执行以下命令进行安装。

sudo yum install -y dkms

若安装过程中,出现以下问题,则可能缺乏epel,执行安装epel-release即可
在这里插入图片描述

yum install epel-release

(2)下载安装包

登录 http://www.nvidia.com/Download/Find.aspx下载需要的安装包
由于现有的显卡的类别未GeForce,因此将设置以下参数
在这里插入图片描述
选取latest版本455.38进行安装下载。

wget https://us.download.nvidia.com/XFree86/Linux-x86_64/455.38/NVIDIA-Linux-x86_64-455.38.run## 可选择在线安装,也可以选择离线下载再上传安装

(3)安装驱动

## 对安装包添加执行权限
chmod +x NVIDIA-Linux-x86_64-455.38.run
## 检查当前系统中是否已安装 gcc 和 kernel-devel 包。
rpm -qa | grep kernel-devel
rpm -qa | grep gcc
## 返回结果如下,则表示已安装 gcc 和 kernel-devel。

## 如未安装,则请执行以下命令进行安装。
sudo yum install -y gcc kernel-devel
## 执行以下命令,运行驱动安装程序,并按提示进行后续操作
sudo sh NVIDIA-Linux-x86_64-418.126.02.run
## 安装完成后,执行以下命令进行验证
nvidia-smi

在这里插入图片描述
出现以上界面,则安装成功
参数介绍
Fan:显示风扇转速,数值在0到100%之间,是计算机的期望转速,如果计算机不是通过风扇冷却或者风扇坏了,显示出来就是N/A;
Temp:显卡内部的温度,单位是摄氏度;
Perf:表征性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能;
Pwr:能耗表示;
Bus-Id:涉及GPU总线的相关信息;
Disp.A:是Display Active的意思,表示GPU的显示是否初始化;
Memory Usage:显存的使用率;
Volatile GPU-Util:浮动的GPU利用率;
Compute M:计算模式;
下边的Processes显示每块GPU上每个进程所使用的显存情况。
参考自https://cloud.tencent.com/document/product/560/8048

4、CUDA安装

(1)安装包下载

https://developer.nvidia.com/cuda-toolkit-archive
本实验采用的cuda版本为10.0.130
在这里插入图片描述

wget https://developer.nvidia.com/compute/cuda/10.0/Prod/local_installers/cuda_10.0.130_410.48_linux

(2)安装

## 添加安装包操作权限
sudo chmod +x cuda_10.0.130_410.48_linux
## 安装
sudo ./cuda_10.0.130_410.48_linux
## 安装完毕后重启系统
reboot

(3)配置

echo 'export PATH=/usr/local/cuda/bin:$PATH' | sudo tee /etc/profile.d/cuda.sh
source /etc/profile

(4)测试

cd /usr/local/cuda-10.1/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery
## 如返回结果显示 Result=PASS,则表示 CUDA 安装成功。
## 若执行 make 命令后,出现如下图所示错误。

在这里插入图片描述
则执行以下命令,安装对应的 gcc 包即可。

yum install -y gcc-c++

安装完成后,再次进行安装配置
参考自https://cloud.tencent.com/document/product/560/8064

5、CUDNN安装

(1)下载

访问链接https://developer.nvidia.com/rdp/cudnn-archive,选择适合cuda10.0的cudnn(linux版本)下载
在这里插入图片描述

wget https://developer.nvidia.com/compute/machine-learning/cudnn/secure/7.6.5.32/Production/10.0_20191031/cudnn-10.0-linux-x64-v7.6.5.32.tgz

(2)安装

cudnn的安装过程比较简单,下载后是一个.solitairetheme8文件,首先修改文件后缀为.tgz,然后解压压缩包,将解压后的文件放在cuda的路径中即可

## 修改文件后缀
mv cudnn-10.0-linux-x64-v7.6.5.32.solitairetheme8 cudnn-10.0-linux-x64-v7.6.5.32.tgz
## 解压
tar -zxvf cudnn-10.0-linux-x64-v7.6.5.32.tgz
## 移动文件
cd cuda    
sudo cp lib64/lib* /usr/local/cuda/lib64/    
sudo cp include/cudnn.h /usr/local/cuda/include/ 

参考自https://www.cnblogs.com/tanwc/p/9375161.html

(3)测试

## 查看cuda版本
cat  /usr/local/cuda/version.txt
## 查看cudnn版本
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

出现以下结果,则说明cuda和cudnn均安装成功,同时版本符合要求
在这里插入图片描述
参考自https://www.cnblogs.com/tanwc/p/9375161.html

6、问题解决

问题一:无法连接NVIDIA驱动:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver

## 检查驱动是否存在
nvcc -V 

在这里插入图片描述

## 安装dkms
sudo yum install dkms
## 获取显卡驱动版本号
ls /usr/src | grep nvidia

在这里插入图片描述

## 安装
sudo dkms install -m nvidia -v 455.38

问题二:conda command not find

source ~/.bashrc

7、其他

## linux 中如何解压文件 比如 .tar.gz 用tar
tar -xzvf .tar.gz
## 生成anaconda的虚拟环境:在ananconda/envs下查找到需要使用到的虚拟环境包,将其打包称tar.gz的文件包即可
tar -zcvf tensorflow-gpu.tar.gz tensorflow-gpu
## anaconda虚拟环境的使用
./bin/python

版权声明:本文为weixin_44704985原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。