- group:进程组。默认情况下,只有一个组,一个
job即为一个组,也即一个world,当我们使用多进程的时候,一个group就有了多个world。当需要进行更加精细的通信时,可以通过new_group接口,使用 word 的子集,创建新组,用于集体通信等。 - world:全局进程个数。
- rank:表示进程序号,用于进程间通信,可以用于表示进程的优先级。我们一般设置
rank=0的主机为 master 节点。 - local_rank:进程内 GPU 编号,非显式参数,由
torch.distributed.launch内部指定。比方说,rank=3,local_rank=0表示第 3 个进程内的第 1 块 GPU。
版权声明:本文为shenjianhua005原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。