PAI & TVM Meetup - Shanghai 20191116

语言	格式	评分
zh	.pdf	3
摘要
文档主要介绍了TensorCore AutoCodeGen在TVM中的应用，包括FP16混合精度训练和INT8推理在PAI平台上的实现。内容涵盖了TensorCore技术的革命性性能提升、混合精度矩阵运算、内存范围扩展、矩阵乘法的优化以及在PAI-Blade上的权重调整和推理速度的提升。文档还展示了通过TVM框架实现的高效计算和性能优化。
AI总结
《PAI & TVM Meetup - Shanghai 20191116》主要围绕TensorCore AutoCodeGen、FP16混合精度训练以及INT8推理在PAI平台上的应用展开讨论。 1. TensorCore AutoCodeGen - TensorCore是一项革命性技术，能够实现混合精度矩阵运算，显著提升AI性能。 - 在TVM中引入了自动代码生成（AutoCodeGen），优化了TensorCore的使用效率。 - 新增了内存范围（wmma.matrix_a/b、accumulator）和基于warp级别的张量化调度，简化了TensorCore的使用流程。 - 动机在于降低手动编写warp级调度的开销，同时实现统一的矩阵乘法调度，提升维护性和优化共享。 2. FP16混合精度训练 - 在PAI平台上实现了FP16混合精度训练，通过利用TensorCore的特性，显著提升了训练效率。 3. INT8推理 - 在PAI-Blade平台上实现了INT8推理，通过量化调整和缩放优化，进一步提升了推理性能。总结来看，本次 meetup 聚焦于通过TensorCore技术优化AI计算效率，结合PAI平台的特性，推动混合精度训练和量化推理的应用，为AI模型的开发和部署提供了更高效的解决方案。