TensorRT - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

4 Python机器学习性能优化

2. 优化算法——知识蒸馏 3. 优化实现——jit/TensorRT ## PyTorch jit ## · 原理介绍 • 转化为graph截图 ![Image](/uploads/documents/7/1/6/5/71656c39f0055537d7f9feafcf0f03f1/p31_2.jpg) ## TensorRT • NVIDIA推出的inference引擎 - 自家硬件使用到极致使用SQuAD任务测试，输入padding到328，batch size分别取1和32 - 计时代码只包含GPU时间，排除掉前后处理时间，另包含数据在CPU和GPU之间copy的时间 |bs * seqlen|tensorrt c++|tensorrt py|tensorflow|pytorch|pytorch jit| |---|---|---|---|---|---| |1 * 328|9.9|9.9|17|16.3|14.8| [Image](/uploads/documents/7/1/6/5/71656c39f0055537d7f9feafcf0f03f1/p36_2.jpg) ## what's next? • TensorRT inference server 改变pipeline • cpu化不在意延时，只追求吞吐量 • fp16低精度 ![Image](/uploads/documents/7/1/6

0 码力 | 38 页 | 2.25 MB | 2 年前
3
2 使用Python训练和部署低精度模型张校捷

使用Python训练和部署低精度模型 (TensorFlow版) 张校捷 2019/9/21 ## 目录 >> 低精度的概念和意义 TensorFlow的FP16模型 >> TensorRT的FP16/Int8模型总结 ![Image](/uploads/documents/a/3/b/b/a3bbe1f6675c3cec959e1f224b976c60/p2_2.jpg) ## 3 TensorRT的FP16/Int8模型 TensorFlow中使用TensorRT在TensorRT中使用FP16/Int8 TensorFlow + TensorRT环境的构建 TensorRT的安装（https://docs.nvidia.com/deeplearning/sdk/tensorrt-install-guide/index.html）： 1. TensorRT 安装包：https://developer 安装包：https://developer.nvidia.com/tensorrt 2. 从.deb文件安装libnvinfer.so 同时安装Python wheel文件tensorrt-6.0.1.5-cp37-none-linux_x86_64.whl 3. 安装TensorFlow 1.14 (GPU版本) 或者直接使用 Docker镜像： docker pull nvcr.io/nvidia/tensorflow:19

0 码力 | 24 页 | 981.45 KB | 2 年前
3
如何利用深度学习提高高精地图生产的自动化率-邹亮

道路边线检测(Lane line Detection) 训练 (Training) Caffe, Tensorflow 基于现有的模型海量图像用来训练推断(Inference) TensorRT Caffe & Tensorflow ## DEEPMAP ![Image](/uploads/documents/5/a/6/0/5a6070d8742bbf0e201041c10f37538d/p16_1 am ACCEPTED ## DEEPMAP ## 路牌、信号灯检测 (Sign Detection, Traffic Light Detection) 推断(Inference) TensorRT 有很高的精确率(precision) (Intersection over Union) 有很高的召回率(recall) 自动生成路牌和信号灯的3D位置 ## DEEPMAP 路牌、信号灯检测

0 码力 | 34 页 | 56.04 MB | 2 年前
3
PyTorch Release Notes

TensorBoard 2.9.0 Nsight Compute 2023.1.1.4 Nsight Systems 2023.2.3.1001 NVIDIA TensorRT $ ^{TM} $ 8.6.1.6 ▶ Torch-TensorRT 1.5.0.dev0 ▶ NVIDIA DALI $ ^{®} $ 1.27.0 MAGMA 2.6.2 JupyterLab 2.3.2 including your PyTorch code. A preview of Torch-TensorRT (1.4.0dev0) is now included. Torch-TRT is the TensorRT integration for PyTorch and brings the capabilities of TensorRT directly to Torch in one line Python PyTorch Container Versions The following table shows what versions of Ubuntu, CUDA, PyTorch, and TensorRT are supported in each of the NVIDIA containers for PyTorch. For earlier container versions, refer

0 码力 | 365 页 | 2.94 MB | 2 年前
3
2022年美团技术年货合辑

AP，在 T4 上推理速度可达 1242 FPS；YOLOv6-s 在 COCO 上精度可达 43.1% AP，在 T4 上推理速度可达 520 FPS。在部署方面，YOLOv6 支持 GPU（TensorRT）、CPU（OPENVINO）、ARM（MNN、TNN、NCNN）等不同平台的部署，极大地简化工程部署时的适配工作。目前，项目已开源至 Github，传送门：YOLOv6。欢迎有需要的小伙伴们版本。更详尽的关于量化部署实践的相关内容，近期会在美团技术团队公众号上进行推送，敬请期待。 ## 完备的开发支持和多平台部署适配 YOLOv6 支持检测模型训练、评估、预测以及模型量化、蒸馏等全链路开发流程，同时支持 GPU（TensorRT）、CPU（OPENVINO）、ARM（MNN、TNN、NCNN）等不同平台的部署，极大简化工程部署时的适配工作。更详细的教程指引请移步 YOLOv6 Github 仓库 Deployment 量化部署方面的难题。对重参数化网络的直接量化一般会带来不可接受的精度损失，例如 RepVGG-B1 $ ^{[2]} $ 网络在 ImageNet 数据集上的浮点精度为 78.42%，采用 TensorRT 后量化（PTQ）的量化模型精度则降低为 54.55%。此外，由于重参数化结构在训练和部署时结构不同，因此无法直接适配现有的量化感知训练（QAT）方法，如何使用 QAT 方法来提高 YOLOv6

0 码力 | 1356 页 | 45.90 MB | 2 年前
3
TVM Meetup: Quantization

- zero_point) http://on-demand.gputechconf.com/gtc/2017/presentation/s7310-8-bit-inference-with-tensorrt.pdf ## Quantization in TVM ## • Quantization within TVM - Automatic Quantization • TVM stack ingests

0 码力 | 19 页 | 489.50 KB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

深度学习-分布式模型推理 ## · 推理性能优化 • 减少计算量：operator fusion/XLA/TVM/prune/float16/quantization • 加快计算速度：batching/TensorRT/MPS/SSE/AVX/Neon ## • operator fusion - 针对特定场景重写耗时算子 • 重构tensorflow计算引擎 ![Image](/uploads/d

0 码力 | 36 页 | 16.69 MB | 2 年前
3
《TensorFlow 快速入门与实战》8-TensorFlow社区参与指南

rather than tensorflow/contrib/lite. • TensorFlow GPU binaries are now built against CUDA 10 and TensorRT 5.0. • Support for Python3.7 on all operating systems. • Moved NCCL to core. ## Behavioral changes

0 码力 | 46 页 | 38.88 MB | 2 年前
3
AGI 趋势下的云原生数据计算系统

jpg) ONNX ![Image](/uploads/documents/e/b/7/c/eb7c6de079426c7bf43ef4dfa4ab8c6a/p18_19.jpg) TensorRT 编译层 ![Image](/uploads/documents/e/b/7/c/eb7c6de079426c7bf43ef4dfa4ab8c6a/p18_20.jpg) TVM AI编译器

0 码力 | 26 页 | 2.84 MB | 2 年前
3
开源中国 2023 大模型(LLM)技术报告

by run 自动并行 data/model/pipelining parallelism 内存规划 memory planner 控制平面 rpc 张量编译器及代码生成xla/tensorrt 国产深度学习框架 OneFlow 架构 (图源: https://www.oneflow.org/a/chappin/oneflow/) 文件系统库 hdfs/POSIX/nfs/s3/oss

0 码力 | 32 页 | 13.09 MB | 2 年前
3

共 12 条前往

页

分类

语言

格式

4 Python机器学习性能优化

2 使用Python训练和部署低精度模型张校捷

如何利用深度学习提高高精地图生产的自动化率-邹亮

PyTorch Release Notes

2022年美团技术年货合辑

TVM Meetup: Quantization

微博在线机器学习和深度学习实践-黄波

《TensorFlow 快速入门与实战》8-TensorFlow社区参与指南

AGI 趋势下的云原生数据计算系统

开源中国 2023 大模型(LLM)技术报告

搜索

分类

语言

格式