2 使用Python训练和部署低精度模型 张校捷大小为16x 如果FP32要使用,可以设置(内部转为FP16): TF_ENABLE_CUBLAS_TENSOR_OP_MATH_FP32=1 TF_ENABLE_CUDNN_TENSOR_OP_MATH_FP32=1 TF_ENABLE_CUDNN_RNN_TENSOR_OP_MATH_FP32=1 TensorFlow手动转换模型 import tensorflow as tf import numpy0 码力 | 24 页 | 981.45 KB | 1 年前3
2022年美团技术年货 合辑卷积的一种可重参数化的结构(融合过程如下图 3 所示)。通过融合成 的 3x3 卷积结构,可以有效利用计算密集型硬件计算能力(比如 GPU),同时也可 获得 GPU/CPU 上已经高度优化的 NVIDIA cuDNN 和 Intel MKL 编译框架的 帮助。 算法 < 5 实验表明,通过上述策略,YOLOv6 减少了在硬件上的延时,并显著提升了算法的 精度,让检测网络更快更强。以 nano 尺寸模型为例,对比 kernel 调整,选择不同的优化策略和计算方式, 寻找适合当前的最优计算方式,以保证当前模型在特定平台上获得最优的性 能。上图是优化主要思想,每一个 op 会有多种 kernel 优化策略(cuDNN、 cuBLAS 等),根据当前架构从所有优化策略中过滤低效 kernel,同时选择最 优 kernel,最终形成新的 Network。 2. 手工优化:众所周知,GPU 适合计算密集型的算子,对于其他类型算子(轻量 为 8.1 TFLOPS,具有极强的推理性能。在 TensorFlow 中,可利用 cuBLAS[9] 调 后端 < 1143 用 Tensor Core 进行 GEMM 加速计算,利用 cuDNN[10] 调用 Tensor Core 进行 CNN、RNN 网络加速计算。 5.3 基于 DL 编译器的自动优化 随着深度学习网络越来越复杂(Wider And Deeper),硬件设备越来越多样(CPU、0 码力 | 1356 页 | 45.90 MB | 1 年前3
共 2 条
- 1













