目录
kaldi gpu slurm集群训练配置
1、slurm配置
slurm.conf修改:
GresTypes=gpu
NodeName= slave1 RealMemory=128000 CPUs=24 State=UNKNOWN Feature="GeForce TRX 2080 Ti" Gres=gpu:2
NodeName= slave2 RealMemory=128000 CPUs=24 State=UNKNOWN Feature="GeForce TRX 2080 Ti" Gres=gpu:2注:通过lspci | grep -i nvidia查看gpu型号
2、gres.conf
增加gres.conf文件
NodeName=slave1 Name=gpu File=/dev/nvidia0
NodeName=slave1 Name=gpu File=/dev/nvidia1
NodeName=slave2 Name=gpu File=/dev/nvidia0
NodeName=slave2 Name=gpu File=/dev/nvidia13.kaldi中配置
kaldi中slurm.conf修改:
option gpu=* -N1 -n1 -p compute --mem=4G --gres-gpu:$0 --cpus-per-task=6 --time=72:0:0kaldi中slurm.pl修改:
option gpu=* -p compute --mem=4G --gres-gpu:$0 --time=4:0:04.训练脚本中设置--use-gpu=true
版权声明:本文为Mrxxyz原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。