PyTorch Release Notesincluding Python 3.10 ‣ NVIDIA CUDA® 12.1.1 ‣ NVIDIA cuBLAS 12.1.3.1 ‣ NVIDIA cuDNN 8.9.3 ‣ NVIDIA NCCL 2.18.3 ‣ NVIDIA RAPIDS™ 23.06 ‣ Apex ‣ rdma-core 39.0 ‣ NVIDIA HPC-X 2.15 ‣ OpenMPI 4.1.4+ ‣ including Python 3.10 ‣ NVIDIA CUDA® 12.1.1 ‣ NVIDIA cuBLAS 12.1.3.1 ‣ NVIDIA cuDNN 8.9.2 ‣ NVIDIA NCCL 2.18.1 ‣ NVIDIA RAPIDS™ 23.04 ‣ Apex ‣ rdma-core 39.0 ‣ NVIDIA HPC-X 2.15 ‣ OpenMPI 4.1.4+ ‣ including Python 3.10 ‣ NVIDIA CUDA® 12.1.1 ‣ NVIDIA cuBLAS 12.1.3.1 ‣ NVIDIA cuDNN 8.9.1.23 ‣ NVIDIA NCCL 2.18.1 ‣ NVIDIA RAPIDS™ 23.04 ‣ Apex ‣ rdma-core 36.0 ‣ NVIDIA HPC-X 2.14 ‣ OpenMPI 4.1.4+ ‣0 码力 | 365 页 | 2.94 MB | 1 年前3
动手学深度学习 v2.0路提供高达300Gbit/s的数据传输速 率。服务器GPU(Volta V100)有六个链路。而消费级GPU(RTX 2080Ti)只有一个链路,运行速度也 降低到100Gbit/s。建议使用NCCL162来实现GPU之间的高速数据传输。 12.4.7 更多延迟 表12.4.1和 表12.4.2中的小结来自Eliot Eshelman163,他们将数字的更新版本保存到GitHub gist164。 s/pcie‐switches 161 https://aws.amazon.com/ec2/instance‐types/p2/ 162 https://github.com/NVIDIA/nccl 163 https://gist.github.com/eshelman 164 https://gist.github.com/eshelman/343a1c46cb3fba142c1afdcdeec176460 码力 | 797 页 | 29.45 MB | 1 年前3
2022年美团技术年货 合辑● 通 信 方 式:PS 架 构 下 PS/Worker 间 通 信 走 的 是 TCP(Grpc/Seastar), Booster 架构下 Worker 间通信走的是 NVSwitch(NCCL),任意两卡间双向 带宽 600GB/s,这也是 Booster 架构的训练速度取得较大提升的原因之一。 由于每张卡的输入数据不同,并且模型参数既有在卡间 Partition 存储的,也有在卡 com/en-us/data-center/dgx-a100 [7] https://github.com/horovod/horovod [8] https://github.com/NVIDIA/nccl [9] https://www.tensorflow.org/xla [10] Yann LeCun, John S. Denker, and Sara A. Solla. Optimal0 码力 | 1356 页 | 45.90 MB | 1 年前3
共 3 条
- 1













