服务器docker配置pytorch环境

服务器配置pytorch 镜像
服务器配置
硬件:Tesla V100s 32GB *4
OS: CentOS Linux release 7.9.2009 (Core)
内核:3.10.0-1127.el7.x86_64

#查看Linux发行版本
cat /etc/redhat-release CentOS Linux release 7.5.1804 (Core)
#查看内核版本  
uname -r

安装 Docker

建议先更换 yum源,否则在安装的时候可能会导致docker-ce-selinux 和 container-selinux版本不匹配的问题

更换 yum

#备份当前源
cd /etc/yum.repos.d/
cp /CentOS-Base.repo /CentOS-Base-repo.bak
#下载新源repo文件,此处以阿里源为例
wget http://mirrors.aliyun.com/repo/Centos-7.repo
#设置为默认源
mv Centos-7.repo CentOS-Base.repo
#生成阿里云yum源缓存并更新yum源
yum makecache
yum update

参考

直接按照教程安装即可
参考1
参考2

安装过程中若出现未满足依赖项的错误的话,可以到官方网址下载或清华镜像站下载,然后手动安装

Docker加速

安装完成之后对Docker镜像添加加速源

source:
科大镜像:https://docker.mirrors.ustc.edu.cn/
网易:https://hub-mirror.c.163.com/
阿里云:https://<你的ID>.mirror.aliyuncs.com
七牛云加速器:https://reg-mirror.qiniu.com

/etc/docker/daemon.json中写入如下内容(如果文件不存在请新建该文件):

{"registry-mirrors":["https://hub-mirror.c.163.com/"]}

之后重新启动服务:

$ sudo systemctl daemon-reload
$ sudo systemctl restart docker

检查加速器是否生效

$ docker info

···Registry Mirrors:https://reg-mirror.qiniu.com···

安装好Docker之后,为了能够在容器内调动Nvidia GPU 则需要安装 Nvidia-Docker

解决权限问题

docker进程使用Unix Socket而不是TCP端口。而默认情况下,Unix socket属于root用户,需要root权限才能访问。
解决 unix socket 需要root 权限问题
docker守护进程启动的时候,会默认赋予名字为docker的用户组读写Unix socket的权限,因此只要创建docker用户组,并将当前用户加入到docker用户组中,那么当前用户就有权限访问Unix socket了,进而也就可以执行docker相关命令

sudo groupadd docker     #添加docker用户组
sudo gpasswd -a $USER docker     #将登陆用户加入到docker用户组中
newgrp docker     #更新用户组
docker ps    #测试docker命令是否可以不使用sudo正常使用

获取镜像

都安装完成之后则进入,建立容器环节

  1. Pull公共镜像作为基础,再进行完善
  2. 直接自己手动建立镜像

这里我们选择第一种方式,节约时间。
首先,到 Docker-hub 上搜索你需要的环境的公共镜像,可直接在命令行输入

docker search pytorch    #此处以安装 pytorch环境为例

在这里插入图片描述
可以直接搜索到hub上的公共镜像,如果需要特定版本的,可以到官方地址搜索查看详情。
在这里插入图片描述
可以看到有各种版本的,选择自己想要的版本 pull到本地,

docker pull pytorch/pytorch:想要的版本TAG   

笔者没有输入tag则直接默认为 :latest,安装了最新版

把镜像pull到本地之后可以通过 docker images来查看本地镜像
在这里插入图片描述
可以看到本地镜像的名字,ID,创建日期,版本,大小等信息

创建容器

然后就可以利用本地镜像来建立容器了

sudo docker run -it(交互式,终端模式) --runtime=nvidia(运行在nvidia GPU上)  -P(随机映射)/-p(8888:8888)(内部端口:主机端口) --name 容器名 -v 主机路径:容器路径 镜像名 /bin/bash (交互方式)
#例如
sudo docker run -it --runtime=nvidia  -p 8888:8888 --name pytorch1.7 -v /tmp:/tmp pytorch/pytorch /bin/bash

用以上建立好容器之后会直接进入容器,然后便可将代码和数据通过上面挂载的共享文件夹来进行传输,在容器内安装好未满足的依赖项之后,启动代码,即可开始训练。

一些其他 Docker 指令

docker ps    #显示正在运行的容器
docker attach 容器名/ID  #进入容器
docker exec -it 容器名/ID #进入容器 且使用 exit 退出时不会关闭容器
docker rm 容器名/ID  #删除容器
docker rmi 镜像名/ID  #删除镜像
CTRL + P + Q  退出容器

版权声明:本文为weixin_44493291原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。