2022年美团技术年货 合辑● 通 信 方 式:PS 架 构 下 PS/Worker 间 通 信 走 的 是 TCP(Grpc/Seastar), Booster 架构下 Worker 间通信走的是 NVSwitch(NCCL),任意两卡间双向 带宽 600GB/s,这也是 Booster 架构的训练速度取得较大提升的原因之一。 由于每张卡的输入数据不同,并且模型参数既有在卡间 Partition 存储的,也有在卡 com/en-us/data-center/dgx-a100 [7] https://github.com/horovod/horovod [8] https://github.com/NVIDIA/nccl [9] https://www.tensorflow.org/xla [10] Yann LeCun, John S. Denker, and Sara A. Solla. Optimal0 码力 | 1356 页 | 45.90 MB | 1 年前3
共 1 条
- 1













