C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化深入浅出访存优化 by 彭于斌( @archibate ) 往期录播: https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码: https://github.com/parallel101/course 为什么往 int 数组里赋值 1 比赋值 0 慢一倍? 第 1 章:内存带宽 cpu-bound 与 memory-bound • 通常来说,并行只能加速计算的部分,不能加速内存读写的部分 。 • 因此,对 fill 这种没有任何计算量,纯粹只有访存的循环体,并 行没有加速效果。称为内存瓶颈( memory-bound )。 • 而 sine 这种内部需要泰勒展开来计算,每次迭代计算量很大的 循环体,并行才有较好的加速效果。称为计算瓶颈( cpu- bound )。 • 并行能减轻计算瓶颈,但不减轻内存瓶颈,故后者是优化的重点 并行能减轻计算瓶颈,但不减轻内存瓶颈,故后者是优化的重点 。 浮点加法的计算量 • 冷知识:并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单,数据量又大,并行只带来了多线程调度的额外开销 。 • 小彭老师经验公式: 1 次浮点读写 ≈ 8 次浮点加法 • 如果矢量化成功( SSE ): 1 次浮点读写 ≈ 32 次浮点加法 • 如果 CPU 有0 码力 | 147 页 | 18.88 MB | 1 年前3
PyConChina2022-杭州-ARM芯片的Python+AI算力优化-朱宏林ARM 芯片的 Python + AI 算力优化 主讲人: 朱宏林 – 阿里云程序语言与编译器团队 简介 • 当今开发者们大量使用 Python 语言编写的 AI 程序。过去这些程序总跑在 GPU 或者 x86 架构的 CPU 上。然而综合考虑到功耗、成本、性能等因素,云厂商们开始建设 ARM 架构的服务平台,如 何整合 Python + AI 的相关软件并使其在该平台上发挥最高的性能成为了工程师们关注的焦点。0 码力 | 24 页 | 4.00 MB | 1 年前3
FISCO BCOS 2-dev 中文文档识 识机 机 机制 制 制:可插拔的共识机制,支持PBFT、Raft和rPBFT共识算法,交易确认时延低、吞吐量 高,并具有最终一致性。其中PBFT和rPBFT可解决拜占庭问题,安全性更高。 • 存 存 存储 储 储:世界状态的存储从原来的MPT存储结构转为分布式存储,避免了世界状态急剧膨胀导致性 能下降的问题;引入可插拔的存储引擎,支持LevelDB、RocksDB、MySQL等多种后端存储,支持 限 限管 管 管理 理 理机 机 机制 制 制:基于分布式存储权限控制机制,灵活、细粒度地控制外部账户部署合约和创建、 插入、删除和更新用户表的权限。 • 支 支 支持 持 持国 国 国密 密 密算 算 算法 法 法:支持国密加密、签名算法和国密通信协议。 • 落 落 落盘 盘 盘加 加 加密 密 密方 方 方案 案 案:支持加密节点落盘数据,保障链上数据的机密性。 • 密 密 密钥 钥 钥管 户、时间等维度分到各群组,群组架构可快速地平行扩展,在扩大了业务规模同时,极大简化了 运维复杂度,降低管理成本。 更多的群组介绍,请参考 群组架构设计文档 和 群组使用教程 2.1.2 分 分 分布 布 布式 式 式存 存 存储 储 储 FISCO BCOS 2.0新增了对分布式数据存储的支持,节点可将数据存储在远端分布式系统中,克服了本地 化数据存储的诸多限制。该方案有以下优点: • 支持多种存储引擎,选用高可0 码力 | 1324 页 | 85.58 MB | 1 年前3
FISCO BCOS 2.7.2 中文文档识 识机 机 机制 制 制:可插拔的共识机制,支持PBFT、Raft和rPBFT共识算法,交易确认时延低、吞吐量 高,并具有最终一致性。其中PBFT和rPBFT可解决拜占庭问题,安全性更高。 • 存 存 存储 储 储:世界状态的存储从原来的MPT存储结构转为分布式存储,避免了世界状态急剧膨胀导致性 能下降的问题;引入可插拔的存储引擎,支持LevelDB、RocksDB、MySQL等多种后端存储,支持 限 限管 管 管理 理 理机 机 机制 制 制:基于分布式存储权限控制机制,灵活、细粒度地控制外部账户部署合约和创建、 插入、删除和更新用户表的权限。 • 支 支 支持 持 持国 国 国密 密 密算 算 算法 法 法:支持国密加密、签名算法和国密通信协议。 • 落 落 落盘 盘 盘加 加 加密 密 密方 方 方案 案 案:支持加密节点落盘数据,保障链上数据的机密性。 • 密 密 密钥 钥 钥管 户、时间等维度分到各群组,群组架构可快速地平行扩展,在扩大了业务规模同时,极大简化了 运维复杂度,降低管理成本。 更多的群组介绍,请参考 群组架构设计文档 和 群组使用教程 2.1.2 分 分 分布 布 布式 式 式存 存 存储 储 储 FISCO BCOS 2.0新增了对分布式数据存储的支持,节点可将数据存储在远端分布式系统中,克服了本地 化数据存储的诸多限制。该方案有以下优点: • 支持多种存储引擎,选用高可0 码力 | 1422 页 | 91.91 MB | 1 年前3
FISCO BCOS 2.9.0 中文文档识 识机 机 机制 制 制:可插拔的共识机制,支持PBFT、Raft和rPBFT共识算法,交易确认时延低、吞吐量 高,并具有最终一致性。其中PBFT和rPBFT可解决拜占庭问题,安全性更高。 • 存 存 存储 储 储:世界状态的存储从原来的MPT存储结构转为分布式存储,避免了世界状态急剧膨胀导致性 能下降的问题;引入可插拔的存储引擎,支持LevelDB、RocksDB、MySQL等多种后端存储,支持 限 限管 管 管理 理 理机 机 机制 制 制:基于分布式存储权限控制机制,灵活、细粒度地控制外部账户部署合约和创建、 插入、删除和更新用户表的权限。 • 支 支 支持 持 持国 国 国密 密 密算 算 算法 法 法:支持国密加密、签名算法和国密通信协议。 • 落 落 落盘 盘 盘加 加 加密 密 密方 方 方案 案 案:支持加密节点落盘数据,保障链上数据的机密性。 • 密 密 密钥 钥 钥管 户、时间等维度分到各群组,群组架构可快速地平行扩展,在扩大了业务规模同时,极大简化了 运维复杂度,降低管理成本。 更多的群组介绍,请参考 群组架构设计文档 和 群组使用教程 2.1.2 分 分 分布 布 布式 式 式存 存 存储 储 储 FISCO BCOS 2.0新增了对分布式数据存储的支持,节点可将数据存储在远端分布式系统中,克服了本地 化数据存储的诸多限制。该方案有以下优点: • 支持多种存储引擎,选用高可0 码力 | 1467 页 | 97.74 MB | 1 年前3
FISCO BCOS 3.0.0-rc2 中文文档识 识机 机 机制 制 制:可插拔的共识机制,支持PBFT、Raft和rPBFT共识算法,交易确认时延低、吞吐量 高,并具有最终一致性。其中PBFT和rPBFT可解决拜占庭问题,安全性更高。 • 存 存 存储 储 储:世界状态的存储从原来的MPT存储结构转为分布式存储,避免了世界状态急剧膨胀导致性 能下降的问题;引入可插拔的存储引擎,支持LevelDB、RocksDB、MySQL等多种后端存储,支持 限 限管 管 管理 理 理机 机 机制 制 制:基于分布式存储权限控制机制,灵活、细粒度地控制外部账户部署合约和创建、 插入、删除和更新用户表的权限。 • 支 支 支持 持 持国 国 国密 密 密算 算 算法 法 法:支持国密加密、签名算法和国密通信协议。 • 落 落 落盘 盘 盘加 加 加密 密 密方 方 方案 案 案:支持加密节点落盘数据,保障链上数据的机密性。 • 密 密 密钥 钥 钥管 户、时间等维度分到各群组,群组架构可快速地平行扩展,在扩大了业务规模同时,极大简化了 运维复杂度,降低管理成本。 更多的群组介绍,请参考 群组架构设计文档 和 群组使用教程 2.1.2 分 分 分布 布 布式 式 式存 存 存储 储 储 FISCO BCOS 2.0新增了对分布式数据存储的支持,节点可将数据存储在远端分布式系统中,克服了本地 化数据存储的诸多限制。该方案有以下优点: • 支持多种存储引擎,选用高可0 码力 | 1459 页 | 97.77 MB | 1 年前3
FISCO BCOS 2.8.0 中文文档识 识机 机 机制 制 制:可插拔的共识机制,支持PBFT、Raft和rPBFT共识算法,交易确认时延低、吞吐量 高,并具有最终一致性。其中PBFT和rPBFT可解决拜占庭问题,安全性更高。 • 存 存 存储 储 储:世界状态的存储从原来的MPT存储结构转为分布式存储,避免了世界状态急剧膨胀导致性 能下降的问题;引入可插拔的存储引擎,支持LevelDB、RocksDB、MySQL等多种后端存储,支持 限 限管 管 管理 理 理机 机 机制 制 制:基于分布式存储权限控制机制,灵活、细粒度地控制外部账户部署合约和创建、 插入、删除和更新用户表的权限。 • 支 支 支持 持 持国 国 国密 密 密算 算 算法 法 法:支持国密加密、签名算法和国密通信协议。 • 落 落 落盘 盘 盘加 加 加密 密 密方 方 方案 案 案:支持加密节点落盘数据,保障链上数据的机密性。 • 密 密 密钥 钥 钥管 户、时间等维度分到各群组,群组架构可快速地平行扩展,在扩大了业务规模同时,极大简化了 运维复杂度,降低管理成本。 更多的群组介绍,请参考 群组架构设计文档 和 群组使用教程 2.1.2 分 分 分布 布 布式 式 式存 存 存储 储 储 FISCO BCOS 2.0新增了对分布式数据存储的支持,节点可将数据存储在远端分布式系统中,克服了本地 化数据存储的诸多限制。该方案有以下优点: • 支持多种存储引擎,选用高可0 码力 | 1435 页 | 92.25 MB | 1 年前3
FISCO BCOS 2.7.0 中文文档识 识机 机 机制 制 制:可插拔的共识机制,支持PBFT、Raft和rPBFT共识算法,交易确认时延低、吞吐量 高,并具有最终一致性。其中PBFT和rPBFT可解决拜占庭问题,安全性更高。 • 存 存 存储 储 储:世界状态的存储从原来的MPT存储结构转为分布式存储,避免了世界状态急剧膨胀导致性 能下降的问题;引入可插拔的存储引擎,支持LevelDB、RocksDB、MySQL等多种后端存储,支持 限 限管 管 管理 理 理机 机 机制 制 制:基于分布式存储权限控制机制,灵活、细粒度地控制外部账户部署合约和创建、 插入、删除和更新用户表的权限。 • 支 支 支持 持 持国 国 国密 密 密算 算 算法 法 法:支持国密加密、签名算法和国密通信协议。 • 落 落 落盘 盘 盘加 加 加密 密 密方 方 方案 案 案:支持加密节点落盘数据,保障链上数据的机密性。 • 密 密 密钥 钥 钥管 户、时间等维度分到各群组,群组架构可快速地平行扩展,在扩大了业务规模同时,极大简化了 运维复杂度,降低管理成本。 更多的群组介绍,请参考 群组架构设计文档 和 群组使用教程 2.1.2 分 分 分布 布 布式 式 式存 存 存储 储 储 FISCO BCOS 2.0新增了对分布式数据存储的支持,节点可将数据存储在远端分布式系统中,克服了本地 化数据存储的诸多限制。该方案有以下优点: • 支持多种存储引擎,选用高可0 码力 | 1435 页 | 92.25 MB | 1 年前3
FISCO BCOS 2.8.0 中文文档识 识机 机 机制 制 制:可插拔的共识机制,支持PBFT、Raft和rPBFT共识算法,交易确认时延低、吞吐量 高,并具有最终一致性。其中PBFT和rPBFT可解决拜占庭问题,安全性更高。 • 存 存 存储 储 储:世界状态的存储从原来的MPT存储结构转为分布式存储,避免了世界状态急剧膨胀导致性 能下降的问题;引入可插拔的存储引擎,支持LevelDB、RocksDB、MySQL等多种后端存储,支持 限 限管 管 管理 理 理机 机 机制 制 制:基于分布式存储权限控制机制,灵活、细粒度地控制外部账户部署合约和创建、 插入、删除和更新用户表的权限。 • 支 支 支持 持 持国 国 国密 密 密算 算 算法 法 法:支持国密加密、签名算法和国密通信协议。 • 落 落 落盘 盘 盘加 加 加密 密 密方 方 方案 案 案:支持加密节点落盘数据,保障链上数据的机密性。 • 密 密 密钥 钥 钥管 户、时间等维度分到各群组,群组架构可快速地平行扩展,在扩大了业务规模同时,极大简化了 运维复杂度,降低管理成本。 更多的群组介绍,请参考 群组架构设计文档 和 群组使用教程 2.1.2 分 分 分布 布 布式 式 式存 存 存储 储 储 FISCO BCOS 2.0新增了对分布式数据存储的支持,节点可将数据存储在远端分布式系统中,克服了本地 化数据存储的诸多限制。该方案有以下优点: • 支持多种存储引擎,选用高可0 码力 | 1435 页 | 92.25 MB | 1 年前3
2022年美团技术年货 合辑外卖广告大规模深度学习模型工程实践 | 美团外卖广告工程实践专题连载 1013 数据库全量 SQL 分析与审计系统性能优化之旅 1048 数据库异常智能分析与诊断 1059 美团外卖广告智能算力的探索与实践(二) 1079 Linux 下跨语言调用 C++ 实践 1101 GPU 在外卖场景精排模型预估中的应用实践 1130 美团集群调度系统的云原生实践 1149 广告平台化的探索与实践 设计方面,我们基于以上 Rep 算子 设 计 了 一 个 高 效 的 Backbone。 相 比 于 YOLOv5 采 用 的 CSP-Backbone, 该 Backbone 能够高效利用硬件(如 GPU)算力的同时,还具有较强的表征能力。 下图 4 为 EfficientRep Backbone 具体设计结构图,我们将 Backbone 中 stride=2 的普通 Conv 层替换成了 stride=2 的检测头则是将分类和回归分支进行解耦,同时新增了两个额外的 3x3 的卷积层,虽然提升了检测精度,但一定程度上增加了网络延时。 因此,我们对解耦头进行了精简设计,同时综合考虑到相关算子表征能力和硬件上计 算开销这两者的平衡,采用 Hybrid Channels 策略重新设计了一个更高效的解耦头 结构,在维持精度的同时降低了延时,缓解了解耦头中 3x3 卷积带来的额外延时开 销。通过在 nano 尺寸0 码力 | 1356 页 | 45.90 MB | 1 年前3
共 329 条
- 1
- 2
- 3
- 4
- 5
- 6
- 33













