NCCL - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PyTorch Release Notes

including Python 3.10 ‣ NVIDIA CUDA® 12.1.1 ‣ NVIDIA cuBLAS 12.1.3.1 ‣ NVIDIA cuDNN 8.9.3 ‣ NVIDIA NCCL 2.18.3 ‣ NVIDIA RAPIDS™ 23.06 ‣ Apex ‣ rdma-core 39.0 ‣ NVIDIA HPC-X 2.15 ‣ OpenMPI 4.1.4+ ‣ including Python 3.10 ‣ NVIDIA CUDA® 12.1.1 ‣ NVIDIA cuBLAS 12.1.3.1 ‣ NVIDIA cuDNN 8.9.2 ‣ NVIDIA NCCL 2.18.1 ‣ NVIDIA RAPIDS™ 23.04 ‣ Apex ‣ rdma-core 39.0 ‣ NVIDIA HPC-X 2.15 ‣ OpenMPI 4.1.4+ ‣ including Python 3.10 ‣ NVIDIA CUDA® 12.1.1 ‣ NVIDIA cuBLAS 12.1.3.1 ‣ NVIDIA cuDNN 8.9.1.23 ‣ NVIDIA NCCL 2.18.1 ‣ NVIDIA RAPIDS™ 23.04 ‣ Apex ‣ rdma-core 36.0 ‣ NVIDIA HPC-X 2.14 ‣ OpenMPI 4.1.4+ ‣

0 码力 | 365 页 | 2.94 MB | 1 年前
3
动手学深度学习 v2.0

路提供高达300Gbit/s的数据传输速率。服务器GPU（Volta V100）有六个链路。而消费级GPU（RTX 2080Ti）只有一个链路，运行速度也降低到100Gbit/s。建议使用NCCL162来实现GPU之间的高速数据传输。 12.4.7 更多延迟表12.4.1和表12.4.2中的小结来自Eliot Eshelman163，他们将数字的更新版本保存到GitHub gist164。 s/pcie‐switches 161 https://aws.amazon.com/ec2/instance‐types/p2/ 162 https://github.com/NVIDIA/nccl 163 https://gist.github.com/eshelman 164 https://gist.github.com/eshelman/343a1c46cb3fba142c1afdcdeec17646

0 码力 | 797 页 | 29.45 MB | 1 年前
3
2022年美团技术年货合辑

● 通信方式：PS 架构下 PS/Worker 间通信走的是 TCP（Grpc/Seastar）， Booster 架构下 Worker 间通信走的是 NVSwitch（NCCL），任意两卡间双向带宽 600GB/s，这也是 Booster 架构的训练速度取得较大提升的原因之一。由于每张卡的输入数据不同，并且模型参数既有在卡间 Partition 存储的，也有在卡 com/en-us/data-center/dgx-a100 [7] https://github.com/horovod/horovod [8] https://github.com/NVIDIA/nccl [9] https://www.tensorflow.org/xla [10] Yann LeCun, John S. Denker, and Sara A. Solla. Optimal

0 码力 | 1356 页 | 45.90 MB | 1 年前
3

共 3 条前往

页

PyTorch Release Notes 动手深度学习 v2 2022 美团技术年货合辑

分类

语言

格式

PyTorch Release Notes

动手学深度学习 v2.0

2022年美团技术年货合辑

分类

语言

格式

PyTorch Release Notes

动手学深度学习 v2.0

2022年美团技术年货 合辑

2022年美团技术年货合辑