深度学习硬件配置好开始环境安装了,系统是选择tensorflow官网要求范围的当前稳定版Ubuntu Desktop 18.04.2 LTS,剩余软件版本选择基本都是最新版。
进行安装深度学习软件前先安装必要的工具
sudo apt-get install vim openssh-server vsftpd freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev
软件 | 版本 |
系统 | Ubuntu Desktop 18.04.2 LTS |
1. 显卡驱动 | 418.43 |
python | 3.6.7 |
2. CUDA | 10.0 |
3. CUDNN | 7.5.0.56 |
4. TensorFlow | 1.13.1 |
5. NCCL | 2.4.2 |
6. TensorRT | 5.0.2.6 |
1. 显卡驱动
官网下载选择GeForce——GeForce RTX 20 Series——GeForce RTX 2080 Ti——Linux 64-bit——English (US)——SEARCH,本地下载到文件NVIDIA-Linux-x86_64-418.43.run。
nouveau是Linux自带的第三方开源显卡驱动,安装nvidia驱动前禁用nouveau,
查看是否有nouveau启动,如果命令
lsmod | grep -i nouveau
返回了结果显示意味着nouveau启动了,禁用nouveau驱动:
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
在文件中添加
blacklist vga16fb
blacklist nouveau
blacklist rivafb
blacklist rivatv
blacklist nvidiafb
options nouveau modeset=0
执行更新上面配置
sudo update-initramfs -u
重启系统确认是否仍在执行
lsmod | grep -i nouveau
如果之前已安装了旧版本显卡驱动,卸载老版本
sudo /usr/bin/nvidia-uninstall
执行安装命令
sudo sh NVIDIA-Linux-x86_64-418.43.run -no-opengl-files -no-x-checks -no-nouveau-check
检查驱动是否安装
nvidia-smi
显示如下信息那就成功了。
查看驱动版本
cat /proc/driver/nvidia/version
2. CUDA
官网下载选择CUDA Toolkit 10.0——Linux——x86_64——Ubuntu——18.04——runfile (local),本地下载到文件cuda_10.0.130_410.48_linux.run。
没官方对应的Ubuntu版本,需要查一下页面上Ubuntu版本的gcc、g++版本。
在本地安装对应版本的gcc、g++
sudo apt install gcc-5 g++-5
调整gcc、g++的默认版本
sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-5 50
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-5 50
如果之前已安装了旧版本CUDA,卸载老版本
sudo /usr/local/cuda-9.0/bin/uninstall_cuda_9.0.pl
卸载之后,会发现 /usr/local/cuda-9.0目录下仍然有文件存在,这是cudnn文件,所以还需要将cuda-9.0文件删除干净:
sudo rm -rf /usr/local/cuda-9.0
执行安装命令
sudo sh cuda_10.0.130_410.48_linux.run
accept——n(不安装驱动)——y(默认地址)
设置系统环境变量
sudo vim /etc/profile
在文件末尾添加
export CUDA_HOME=/usr/local/cuda-10.0
export PATH=$CUDA_HOME/bin:$PATH
export LD_LIBRARY_PATH=$CUDA_HOME/lib64:/usr/local/cuda/extras/CUPTI/lib64:$LD_LIBRARY_PATH
执行更新上面配置
source /etc/profile
检查CUDA是否安装
nvcc --version
显示如下信息那就成功了
cd $CUDA_HOME/samples/1_Utilities/deviceQuery
sudo make clean
sudo make
./deviceQuery
cd ../bandwidthTest
sudo make clean
sudo make
./bandwidthTest
Result = PASS代表验证成功。
3. CUDNN
官网下载选择I Agree To the Terms of the cuDNN Software License Agreement——Download cuDNN v7.5.0 (Feb 21, 2019), for CUDA 10.0——cuDNN Runtime Library for Ubuntu18.04 (Deb)——cuDNN Developer Library for Ubuntu18.04 (Deb)——cuDNN Code Samples and User Guide for Ubuntu18.04 (Deb),本地下载到文件libcudnn7_7.5.0.56-1+cuda10.0_amd64.deb、libcudnn7-dev_7.5.0.56-1+cuda10.0_amd64.deb、libcudnn7-doc_7.5.0.56-1+cuda10.0_amd64.deb。
执行安装命令
sudo dpkg -i libcudnn7_7.5.0.56-1+cuda10.0_amd64.deb
sudo dpkg -i libcudnn7-dev_7.5.0.56-1+cuda10.0_amd64.deb
sudo dpkg -i libcudnn7-doc_7.5.0.56-1+cuda10.0_amd64.deb
检查CUDNN是否安装
cd /usr/src/cudnn_samples_v7/mnistCUDNN
sudo make clean
sudo make
./mnistCUDNN
显示如下信息那就成功了
4. TensorFlow
官网下载选择版本
执行安装命令
pip3 install --upgrade tensorflow-gpu==1.13.1
检查TensorFlow是否安装
python代码
import tensorflow as tf
# Creates a graph.
a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name='a')
b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name='b')
c = tf.matmul(a, b)
# Creates a session with log_device_placement set to True.
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
# Runs the op.
print(sess.run(c))
显示如下信息那就成功了
5. NCCL
官网下载选择I Agree To the Terms of the Software License Agreement——Download NCCL v2.4.2, for CUDA 10.0, Jan 29,2019——Local installer for Ubuntu 18.04,本地下载到文件nccl-repo-ubuntu1804-2.4.2-ga-cuda10.0_1-1_amd64.deb。
执行安装命令
sudo dpkg -i nccl-repo-ubuntu1804-2.4.2-ga-cuda10.0_1-1_amd64.deb
检查NCCL是否安装
官网下载测试源码
cd nccl-tests-master
make CUDA_HOME=/usr/local/cuda-10.0 NCCL_HOME=/usr
./build/all_reduce_perf -b 8 -e 128M -f 2 -g 2
显示如下信息那就成功了
6. TensorRT
官网下载选择I Agree To the Terms of the NVIDIA TensorRT License Agreement——Download NCCL v2.4.2, for CUDA 10.0, Jan 29,2019——TensorRT 5.0.2.6 GA for Ubuntu 1804 and CUDA 10.0 DEB local repo packages,本地下载到文件nv-tensorrt-repo-ubuntu1804-cuda10.0-trt5.0.2.6-ga-20181009_1-1_amd64.deb。
执行安装命令
sudo dpkg -i nv-tensorrt-repo-ubuntu1804-cuda10.0-trt5.0.2.6-ga-20181009_1-1_amd64.deb