slurm kaldi gpu相关问题下(配置文件修改)

目录

kaldi gpu slurm集群训练配置

1、slurm配置

2、gres.conf

3.kaldi中配置

4.训练脚本中设置--use-gpu=true


kaldi gpu slurm集群训练配置

1、slurm配置

slurm.conf修改:


GresTypes=gpu
NodeName= slave1 RealMemory=128000 CPUs=24 State=UNKNOWN Feature="GeForce TRX 2080 Ti" Gres=gpu:2
NodeName= slave2 RealMemory=128000 CPUs=24 State=UNKNOWN Feature="GeForce TRX 2080 Ti" Gres=gpu:2

注:通过lspci | grep -i nvidia查看gpu型号

2、gres.conf

增加gres.conf文件

NodeName=slave1 Name=gpu File=/dev/nvidia0
NodeName=slave1 Name=gpu File=/dev/nvidia1
NodeName=slave2 Name=gpu File=/dev/nvidia0
NodeName=slave2 Name=gpu File=/dev/nvidia1

3.kaldi中配置

kaldi中slurm.conf修改:

option gpu=* -N1 -n1 -p compute --mem=4G --gres-gpu:$0 --cpus-per-task=6 --time=72:0:0

kaldi中slurm.pl修改:

option gpu=* -p compute --mem=4G --gres-gpu:$0 --time=4:0:0

4.训练脚本中设置--use-gpu=true


版权声明:本文为Mrxxyz原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。