linux基于GTX1080TI的NVIDIA GPU驱动安装、配置、测试

1、相关资源包下载

版本依赖关系：
在这里插入图片描述
参考自https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
NVIDIA（455.38）驱动下载链接：http://www.nvidia.com/Download/Find.aspx
Cuda（10.0.130）下载链接：https://developer.nvidia.com/cuda-toolkit-archive
Cudnn（7.6.5）下载链接：https://developer.nvidia.com/rdp/cudnn-archive

2、关闭Nouveau

cd /etc/modprobe.d
## 如果没有blacklist.conf文件，则需要创建
vim blacklist.conf
## 添加以下内容
blacklist nouveau
## 重新建立the initramfs file
sudo dracut -v /boot/initramfs-$(uname -r).img $(uname -r)
## 重新启动
reboot
## 之后即可安装NVIDIA driver

参考自https://blog.csdn.net/weixin_33800463/article/details/92967455

3、NVIDIA驱动安装

Linux 驱动安装采用 Shell 脚本安装方式，适用于任何 Linux 发行版，包括 CentOS，Ubuntu 等。NVIDIA GeForce GPU 的 Linux 驱动在安装过程中需要编译 kernel module，系统需提前安装 gcc 和编译 Linux Kernel Module 所依赖的包，例如 kernel-devel-$(uname -r) 等。

（1）执行以下命令，检查当前系统中是否已安装 dkms。

rpm -qa | grep -i dkms

返回结果如下图，则表示已安装 dkms。

如未安装 dkms，则执行以下命令进行安装。

sudo yum install -y dkms

若安装过程中，出现以下问题，则可能缺乏epel，执行安装epel-release即可
在这里插入图片描述

yum install epel-release

（2）下载安装包

wget https://us.download.nvidia.com/XFree86/Linux-x86_64/455.38/NVIDIA-Linux-x86_64-455.38.run## 可选择在线安装，也可以选择离线下载再上传安装

（3）安装驱动

## 对安装包添加执行权限
chmod +x NVIDIA-Linux-x86_64-455.38.run
## 检查当前系统中是否已安装 gcc 和 kernel-devel 包。
rpm -qa | grep kernel-devel
rpm -qa | grep gcc
## 返回结果如下，则表示已安装 gcc 和 kernel-devel。

## 如未安装，则请执行以下命令进行安装。
sudo yum install -y gcc kernel-devel
## 执行以下命令，运行驱动安装程序，并按提示进行后续操作
sudo sh NVIDIA-Linux-x86_64-418.126.02.run
## 安装完成后，执行以下命令进行验证
nvidia-smi

在这里插入图片描述
出现以上界面，则安装成功
参数介绍
Fan：显示风扇转速，数值在0到100%之间，是计算机的期望转速，如果计算机不是通过风扇冷却或者风扇坏了，显示出来就是N/A；
Temp：显卡内部的温度，单位是摄氏度；
Perf：表征性能状态，从P0到P12，P0表示最大性能，P12表示状态最小性能；
Pwr：能耗表示；
Bus-Id：涉及GPU总线的相关信息；
Disp.A：是Display Active的意思，表示GPU的显示是否初始化；
Memory Usage：显存的使用率；
Volatile GPU-Util：浮动的GPU利用率；
Compute M：计算模式；
下边的Processes显示每块GPU上每个进程所使用的显存情况。
参考自https://cloud.tencent.com/document/product/560/8048

4、CUDA安装

（1）安装包下载

https://developer.nvidia.com/cuda-toolkit-archive
本实验采用的cuda版本为10.0.130
在这里插入图片描述

wget https://developer.nvidia.com/compute/cuda/10.0/Prod/local_installers/cuda_10.0.130_410.48_linux

（2）安装

## 添加安装包操作权限
sudo chmod +x cuda_10.0.130_410.48_linux
## 安装
sudo ./cuda_10.0.130_410.48_linux
## 安装完毕后重启系统
reboot

（3）配置

echo 'export PATH=/usr/local/cuda/bin:$PATH' | sudo tee /etc/profile.d/cuda.sh
source /etc/profile

（4）测试

cd /usr/local/cuda-10.1/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery
## 如返回结果显示 Result=PASS，则表示 CUDA 安装成功。
## 若执行 make 命令后，出现如下图所示错误。

在这里插入图片描述
则执行以下命令，安装对应的 gcc 包即可。

yum install -y gcc-c++

安装完成后，再次进行安装配置
参考自https://cloud.tencent.com/document/product/560/8064

5、CUDNN安装

（1）下载

访问链接https://developer.nvidia.com/rdp/cudnn-archive，选择适合cuda10.0的cudnn（linux版本）下载
在这里插入图片描述

wget https://developer.nvidia.com/compute/machine-learning/cudnn/secure/7.6.5.32/Production/10.0_20191031/cudnn-10.0-linux-x64-v7.6.5.32.tgz

（2）安装

cudnn的安装过程比较简单，下载后是一个.solitairetheme8文件，首先修改文件后缀为.tgz，然后解压压缩包，将解压后的文件放在cuda的路径中即可

## 修改文件后缀
mv cudnn-10.0-linux-x64-v7.6.5.32.solitairetheme8 cudnn-10.0-linux-x64-v7.6.5.32.tgz
## 解压
tar -zxvf cudnn-10.0-linux-x64-v7.6.5.32.tgz
## 移动文件
cd cuda    
sudo cp lib64/lib* /usr/local/cuda/lib64/    
sudo cp include/cudnn.h /usr/local/cuda/include/

参考自https://www.cnblogs.com/tanwc/p/9375161.html

（3）测试

## 查看cuda版本
cat  /usr/local/cuda/version.txt
## 查看cudnn版本
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

出现以下结果，则说明cuda和cudnn均安装成功，同时版本符合要求
在这里插入图片描述
参考自https://www.cnblogs.com/tanwc/p/9375161.html

6、问题解决

问题一：无法连接NVIDIA驱动：NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver

## 检查驱动是否存在
nvcc -V

在这里插入图片描述

## 安装dkms
sudo yum install dkms
## 获取显卡驱动版本号
ls /usr/src | grep nvidia

## 安装
sudo dkms install -m nvidia -v 455.38

问题二：conda command not find

source ~/.bashrc

7、其他

## linux 中如何解压文件 比如 .tar.gz 用tar
tar -xzvf .tar.gz
## 生成anaconda的虚拟环境：在ananconda/envs下查找到需要使用到的虚拟环境包，将其打包称tar.gz的文件包即可
tar -zcvf tensorflow-gpu.tar.gz tensorflow-gpu
## anaconda虚拟环境的使用
./bin/python

原文链接：https://blog.csdn.net/weixin_44704985/article/details/109519558