搜索

pdf文档 PyConChina2022-杭州-ARM芯片的Python+AI算力优化-朱宏林

4.00 MB 24 页 0 下载 94 浏览 0 评论 0 收藏
上传 格式 评分
copilot
.pdf
3
摘要
文档介绍了在ARM芯片上优化Python和AI性能的工作,特别是通过优化BF16类型的矩阵乘法来提升深度学习推理任务的性能。该优化成果已集成到OpenBLAS和PyTorch中,并在阿里云的倚天710 ARM芯片上进行了实践。文档还讨论了如何在ARM云平台上部署Python+AI任务,并展示了在不同深度学习模型(如ResNet-50和Mask R-CNN)上的性能提升。
AI总结
本次演讲围绕在 ARM 芯片上优化 Python + AI 算力的主题,分享了以下核心内容: 1. **背景与挑战** - 当前大量 AI 程序基于 Python 开发,传统运行环境为 GPU 或 x86 CPU。 - 为应对功耗、成本和性能需求,云厂商开始推广 ARM 架构服务平台,如何在该平台上优化 Python + AI 成为重要课题。 2. **矩阵乘法优化** - 矩阵乘法(GEMM)是深度学习的核心计算,优化重点包括: - 利用 ARM 架构的新矩阵扩展(如 SME)对 BF16 类型矩阵乘法进行优化,运算速度提升 3 倍以上。 - 优化成果已集成到 OpenBLAS 和 PyTorch 等主流库中。 3. **硬件与平台支持** - 倚天 710 芯片和 AWS Graviton 等 ARM 服务端芯片为 Python + AI 优化提供了硬件支持。 - 当前 Intel AMX 和 ARM SME 等硬件加速技术在特定场景中具备优势,但大规模应用仍需进一步推广。 4. **性能测试与对比** - 在阿里云 ECS g8y(倚天 710)平台上,通过 FP32 和 BF16 GEMM 测试: - FP32 GEMM GFLOPS 达到 18.9,BF16 GEMM GFLOPS 达到 34.4。 - BF16 矩阵乘法在 ResNet-50 和 Mask R-CNN 等模型推理任务中表现出显著性能提升。 5. **框架与工具优化** - TensorFlow 和 PyTorch 等深度学习框架通过结合 ARM Compute Library 和 OpenBLAS 实现了对 BF16 的支持。 - 优化后,PyTorch 的浮点数学加速模式支持 BF16,显著提升了模型推理效率。 6. **总结与展望** - 在 ARM 云平台上部署 Python + AI 任务的最佳实践包括: - 选择合适的硬件架构(如倚天 710)。 - 充分利用 ARM 架构的矩阵扩展和优化库。 - 持续探索硬件加速技术在 Python AI 任务中的应用潜力。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 12 页请下载阅读 -
文档评分
请文明评论,理性发言.