搜索

pdf文档 XDNN TVM - Nov 2019

3.35 MB 16 页 0 下载 77 浏览 0 评论 0 收藏
语言 格式 评分
ro
.pdf
3
摘要
文档主要介绍了Xilinx的深度学习加速技术,特别是基于FPGA的CNN加速器和TVM工具链。内容涵盖了Xilinx的硬件平台如ZCU102、ZCU104和Ultra96,以及这些平台在目标检测、姿态估计、视频分析等任务中的应用。文档还详细讨论了TVM在代码生成、图解析、编译器、量化和分区器方面的功能,以及如何通过多进程管道优化性能,特别是在多分支网络中的应用。
AI总结
《XDNN TVM - Nov 2019》 1. **FPGA CNN Accelerator and TVM** - 介绍了Xilinx的FPGA加速器与TVM的结合,用于加速深度学习模型的推理。 - Elliott Delaye和EXILINX在FPGA加速器的开发中起到了重要作用。 2. **TVM Target Devices and Models** - 支持的硬件平台包括ZCU102、ZCU104、Ultra96等。 - 支持的模型包括目标检测、姿态估计、视频分析、车道检测等。 - 提供了PYNQ和Segmentation等模型的布局信息。 3. **Performance Pipelines** - 性能指标包括延迟(Latency)和吞吐量(Throughput)。 - ML pipeline的性能瓶颈通常出现在预处理、加速器运行或后处理阶段。 - TVM的多进程流水线利用共享内存进行高效数据传输,通常需要多个预处理核心以匹配FPGA的处理速度。 4. **TVM Code Generation** - 展示了TVM的代码生成能力,包括注册外部加速函数和图形单元的处理逻辑。 - 使用TVM的编译器(XIR Compiler)和量化器(Quantizer)对模型进行优化和分区。 5. **TVM Graph Partitioning/Fusion** - 通过图形单元的模式匹配和颜色化处理,实现高效的模型分区和融合。 - 针对多分支网络(如YOLOv3、SSD)进行优化,提升性能。 6. **Xilinx Cloud DPU Processor (xDNNv3)** - 配置式叠加处理器,支持DNN专用指令集(如卷积、最大池化等)。 - 支持任意网络结构和图像尺寸,具有高频率和高计算效率。 - 支持平台包括U200(3实例)、U250(4实例)和亚马逊F1实例,提供约1536个DSP核@700MHz的算力。 总结: 本文档主要介绍了Xilinx的FPGA加速器与TVM的结合,展示了其在硬件平台支持、模型推理性能优化以及代码生成和图形单元处理方面的优势,并提到了Xilinx Cloud DPU处理器(xDNNv3)的高性能特点。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 4 页请下载阅读 -
文档评分
请文明评论,理性发言.