pytorch中world,rank理解

  • group:进程组。默认情况下,只有一个组,一个 job 即为一个组,也即一个 world,当我们使用多进程的时候,一个 group 就有了多个 world。当需要进行更加精细的通信时,可以通过 new_group 接口,使用 word 的子集,创建新组,用于集体通信等。
  • world:全局进程个数。
  • rank:表示进程序号,用于进程间通信,可以用于表示进程的优先级。我们一般设置 rank=0 的主机为 master 节点。
  • local_rank:进程内 GPU 编号,非显式参数,由 torch.distributed.launch 内部指定。比方说, rank=3local_rank=0 表示第 3 个进程内的第 1 块 GPU。

参考:PyTorch 多进程分布式训练实战 | 拾荒志


版权声明:本文为shenjianhua005原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。