2 使用Python训练和部署低精度模型 张校捷3bbe1f6675c3cec959e1f224b976c60/p1_2.jpg) PYTHON 30th ## 使用Python训练和部署低精度模型 (TensorFlow版) 张校捷 2019/9/21 ## 目录 >> 低精度的概念和意义 TensorFlow的FP16模型 >> TensorRT的FP16/Int8模型 总结  FP16: E8M7 (TPU, tf.bfloat16) FP16: E5M10 (GPU, tf.float16) Int8 ## 低精度浮点数的优点 ### 1. 节约 节约内存/显存的使用(FP16为原来的1/2,int8为原来的1/4) 2. 特殊的硬件专门用于低精度浮点数的计算加速(TensorCore) FP16 storage/input Full precision product Sum with FP32 accumulator Convert to FP32 result  ## Apache Pulsar 要解决的问题 ## • 企业需求和数据规模 • 多租户 - 百万Topics - 低延时 - 持久化 - 跨地域复制 • 解除存储计算耦合 • 运维痛点:替换机器、服务扩容、数据 rebalance ## · 减少文件系统依赖 • 性能难保障:持久化(fsync)、一致性(ack:  ## 分布式日志/流存储 - 低延时、高吞吐、持久化 • 强一致 (repeatable read consistency) · 高可用 • 单节点可以存储很多日志 • I/O隔离  • 大量客户需要私有化云服务器部署(云更新) • 需求变更频繁,不适合关系型数据库 ## 目前服务器架构  ## 总结 • Go可以用于高并发、低延迟的程序开发 • Go极大的提升了开发效率 THANKS Bai百度0 码力 | 35 页 | 730.17 KB | 2 年前3
基于Go的大数据平台-党合萱多种上下游适配 - 高吞吐/低延迟问题探究 - 高可用与水平扩展 - 自动化运维 - Go的应用 ## 系统设计分析与架构 ## 构建系统的挑战 每天数千亿数据点 任务切分粒度 每天百TB数据量 1 高吞吐量 4 水平扩展 机器扩容 高峰期每分钟近200GB数据量 master节点failover 5 高可用 分钟级数据延迟 ② 低延迟 server节点无状态 ts/7/1/6/b/716b45ba07ae342152eb1f7952269e99/p10_3.jpg) Sinker 云存储导出模型 ## 高吞吐/低延迟问题探究 ## 简单·可信赖 ## 困难 高吞吐 1、资源利用率低 2、上下游吞吐能力不匹配  # Apache RocketMQ 介绍 ## 概要 Apache RocketMQ是一个分布式消息传递和流媒体平台,具有低延迟,高性能和可靠性,万亿级容和灵活的可伸缩性。它的一个重要特性是支持非日志类型的可靠消息传送,非常适合运用在金融和电商务领域。目前他是Apache社区的顶级项目,在全球有超过100家公司在其业务中使用RocketMQ开源版本。 IO模块遇到了瓶颈,几经努力但改善成果不。这时正值Kafka流行,于是引起了阿里巴巴开发团队的注意,对kafka的无限消息堆积,高效持久化度等特性非常赞赏。但不幸的是,Kafka不能满足他们的要求,特别是在低延迟和高可靠性方面。在种情况下,阿里巴巴决定发明一个新的消息传递引擎来处理更广泛的用例集,从传统的发布/订阅方到大批量实时零损失容忍交易系统。 ## 里程碑 2012年,阿里巴巴开始开发Rocke RocketMQ在社区各方面的努力下,茁壮发展,很多功能都得到了加强。 ## RocketMQ的技术概览 在我们看来,它最大的创新点在于能够通过精巧的横向、纵向扩展,不断满足与日俱增的海量消息在吞吐、高可靠、低延迟方面的要求。 目前RocketMQ主要由NameServer、Broker、Producer以及Consumer四部分构成,如下图所示。 ,同时也可获得 GPU/CPU 上已经高度优化的 NVIDIA cuDNN 和 Intel MKL 编译框架的帮助。 实验表明,通过上述策略,YOLOv6 减少了在硬件上的延时,并显著提升了算法的精度,让检测网络更快更强。以 nano 尺寸模型为例,对比 YOLOv5-nano 采用的网络结构,本方法在速度上提升了 21%,同时精度提升 3.6% AP。 












