低延迟 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

）。 • 并行能减轻计算瓶颈，但不减轻内存瓶颈，故后者是优化的重点。浮点加法的计算量 • 冷知识：并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 1 次浮点读写 ≈ 8 次浮点加法 • 如果矢量化成功（ SSE ）： 1 次浮点读写 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 指的是分支预测是否成功。多少计算量才算多？ • 看右边的 func ，够复杂了吧？也只是勉勉强强超过一点内存的延迟了，但在 6 个物理核心上并行加速后，还是变成 mem-bound 了。 • 加速比： 1.36 倍 • 应该达到 6 倍（物理核心数量）才算理想加速比。加速曲线 • funcA 用了可见数据量较小时，实际带宽甚至超过了理论带宽极限 42672 MB/s ！ • 而数据量足够大时，才回落到正常的带宽。 • 这是为什么？ CPU 内部的高速缓存 • 原来 CPU 的厂商早就意识到了内存延迟高，读写效率低下的问题。因此他们在 CPU 内部引入了一片极小的存储器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（ cache ）。 • 当 CPU 访问某个地址时，会先查找缓存中是否有对应的

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

稍微快一些，但不完全精确的 __sinf • 两个下划线的 __sinf 是 GPU intrinstics ，精度相当于 GLSL 里的那种。适合对精度要求不高，但有性能要求的图形学任务。 • 类似的这样的低精度內建函数还有 __expf 、 __logf 、 __cosf 、 __powf 等。 • 还有 __fdividef(x, y) 提供更快的浮点除法，和一般的除法有相同的精确度，但是在避免修改寄存器和访存相当于 CPU 的 SIMD 指令 _mm_blendv_ps 和 _mm_store_mask_ps ，不过 GPU 这种 SIMT 的设计能够自动处理分支和循环的分歧，这是他门槛比 CPU 低的一点。避免修改寄存器和访存相当于 CPU 的 SIMD 指令 _mm_blendv_ps 和 _mm_store_mask_ps ，不过 GPU 这种 SIMT 的设计能够自动处理分支和循环的分歧，这是他门槛比 CPU 低的一点。

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

2 = 位运算总结 • a >> n 可以取出 a 的高 32-n 位 • a & ((1 << n) - 1) 可以取出 a 的低 n 位 • (a >> n) | (b & ((1 << n) - 1)) 可以取出 a 的高 32-n 位， b 的低 n 位，组合成一个 32 位的整数。解决： & 替代 % ， >> 替代 / ， | 替代 + 块编号直接为对齐的坐标， << ）。 • 右边就是一个很好的例子。使用 int64_t ：每个占据 8 字节 • 如果用更大的数据类型，用时会直接提升两倍！ • 这是因为 i % 2 的计算时间，完全隐藏在内存的超高延迟里了。 • 可见，当数据量足够大，计算量却不多时，读写数据量的大小唯一决定着你的性能。 • 特别是并行以后，计算量可以被并行加速，而访存却不行。使用 int8_t ：每个占据 1 字节：标准库帮你实现好了 • 其实标准库的 vector 是一个特化的版本，他会自动像刚刚说的把值看做 1bit ，然后八个合并成一个 int8_t 。 • 不过效率比我们手写的低很多…… 不推荐使用 std::vector • 不建议使用 vector 的原因：他返回的不是真正的引用，而是一个重载了 operator= 和 operator bool

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

O(n²) 表示花费时间和数据量的平方成正比。 • 对于并行算法，复杂度的评估则要分为两种： • 时间复杂度：程序所用的总时间（重点） • 工作复杂度：程序所用的计算量（次要） • 这两个指标都是越低越好。时间复杂度决定了快慢，工作复杂度决定了耗电量。 • 通常来说，工作复杂度 = 时间复杂度 * 核心数量 • 1 个核心工作一小时， 4 个核心工作一小时。时间复杂度一样，而后者工作复杂度更高。域按照常规的两层循环访问以便矢量化，块外部大区域则以类似 Z 字型的曲线遍历，这样能保证每次访问的数据在地址上比较靠近，并且都是最近访问过的，从而已经在缓存里可以直接读写，避免了从主内存读写的超高延迟。 • 下次课会进一步深入探讨访存优化，详细剖析这个案例，那么下周六 14 点敬请期待。第 6 章：并发容器 std::vector 扩容时会移动元素 • std::vector 内部存储了一个指针，指向一段容量 push_back 等一起用，否则需要用读写锁保护。不建议通过索引随机访问 • 因为 tbb::concurrent_vector 内存不连续的特点，通过索引访问，比通过迭代器访问的效率低一些。 • 因此不推荐像 a[i] 这样通过索引随机访问其中的元素， *(it + i) 这样需要迭代器跨步访问的也不推荐。推荐通过迭代器顺序访问 • 最好的方式是用 begin() 和

0 码力 | 116 页 | 15.85 MB | 1 年前
3
Rust分布式账务系统 - 胡宇

Airwallex 从设计架构到实现细节项目介绍分布式账务系统 Fintech 互联网正确性 bug= 资损 bug 不可怕，快速迭代可靠性丢数据 = 资损允许数据丢失性能超低延迟 + 高吞吐超高吞吐交易日志审计，监管调试使用分布式账务系统 Fintech 领域中的软件与互联网软件的不同需求分析支付处理： ● 转账 ● 冻资 / 解资 ● 账户限额批处理事务正确性：无双花或少付审计监管：交易日志不可篡改，交易历史可回溯条件事务：根据一定的条件决定事务执行与否高可用：在部分节点失效的情况下，依旧可以提供正确的服务超低延迟：实时交易，超低响应延迟水平扩展性：利用分布式事务实现钱包集群的的水平扩展，应对高达 100 万 TPS 的流量可演化性：业务逻辑与底层 API 解耦，当业务发生改变时，底层 API 不用改变分布式账务系统 id 进行分区 ○ 执行账户变动请求 ○ 更新账户余额分布式账务系统性能展示 8 vCPUs * 5 节点 SSD 磁盘当 TPS = 10K 时，延迟 P99 < 20ms 分布式账务系统高吞吐，超低延迟账户层： Auticuro 分布式账务系统账户层： Auticuro ● 1. 接受转账请求，转换成 events ○ Tokio + Tonic 分布式账务系统

0 码力 | 27 页 | 12.60 MB | 1 年前
3
Rust 异步并发框架在移动端的应用 - 陈明煜

对外接口 APP/SA 调度器提交任务 Async function CPU Task CPU Task IO Task IO Task Executor 高中低线程池 Reactor epoll fd1 fd2 …. 结构化并发优先级 deadline Async Sync Async IO Async Timer Parallel Calc quality of service 高权重线程低权重线程 task …. task …. Global queue task Local queue task Local queue Core 高权重线程 Worker Worker 任务优先级调度根据工作线程的优先级进行绑核（大小核） • 高优先级任务在大核执行，高性能 • 低优先级任务在小核执行，节省能耗 Task priority priority and quality of service Big Core Little Core 高优先级线程低优先级线程普通优先级线程 Set core-affinity IO & CPU 融合北向接口融合：异步并行迭代器  将 Rayon 并行迭代器异步化  可以对 Rust 常规数据容器生成并行迭代器，对容器内的数据进行异步并行的操作 Fusion of

0 码力 | 25 页 | 1.64 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

体系 Zadig 云原生 DevOps 平台高人效低人效低人效 / 低质量 / 低效率 / 高成本：人淹没在系统的海洋里，无数平台手工切换高人效 / 高质量 / 高效率 / 低成本：人在系统之外 / 上，复杂性下沉到单一平台希望工程师不再花时间在开发写代码之外的脏活累活，比如服务部署、找环境，服务编排等 Infra 的事情。 1 0 0 % 开源基解放管理，更多时间花在业务创新平台运维业务压力大，能力建设缓慢： • 大量工作花在工具链维护 • 项目间依赖复杂，环境管理难 • 交付版本依赖工单，发布风险高 • 公共资源 / 业务资源利用率低赋能多业务：一个平台解决了多异构项目的管理和规范团队高效协作：定义团队角色工作流模板，随时可用云上环境价值清晰呈现：为管理者提供全视角效能数据，赋能数字决策人工低效操作减少 80% 需求研发总耗时降低 30% 需求迭代周期缩短 1-5 倍解放开发，专注编码更多的架构和技术提升测试效率和质量难以平衡： • 自动化测试难以开展 • 环境不稳定并行验证效率低 • 测试多苦劳，价值难以体现测试效果提升：独立稳定环境用于测试验收、自动化建设价值被团队感知：自动化测试从开发到发布被全团队感知部署频率升高 1-5 倍验证有效性提升 100%

0 码力 | 59 页 | 81.43 MB | 1 年前
3
Zadig 产品使用手册

则是面向开发者视角，中立，云原生一体化价值链平台。与现存 DevOps 方案对比：现存方案典型代表方案特点分析 Zadig 优势传统 Jenkins 方案 GitLab + Jenkins + 脚本化运行效率低，管理维护成本高方案局限性大，安全性风险高无法支持敏捷交付模式支持从需求到发布全流程敏捷交付。尤其面向多服务并行部署发布，云原生构建环境和运行环境，基础设施对接及企业级 SSO/ 权限管理内部推广难度极高做完后价值难被证明通用性、可扩展性、技术先进性强，可以灵活广泛接入各种技术和业务场景基于代码管理的 DevOps 方案 Gitee 平台 GitLab 平台局限性大、全流程安全性低维护成本高支持多个服务并行构建部署、产品级发布，可灵活安全接入多个代码仓及周边工具链开发 Zadig 核心特性：运维真正意义的持续交付：以工程师体验为核心，价值交付为理念，完成需求到发布的全路径。一堆复杂脚本、维护成本极高员工手工操作费时费力易出错手动更新服务、手动打包、交付付效率低下、占据大量研发时间、研发利用率极低环境不透明、测试效率低下、测试有效性低、大量手工、价值难以体现上下游烟囱式、协作效率低、团队花大量时间在碎片化沟通和流程制定上、各方能力受限、无法快速响应市场需求层级越高、对产研状态越模糊管理低效、延误战机少量配置、快速拉起环境、稳定性有保障、减少

0 码力 | 52 页 | 22.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

列出所有模板参数的排列组合，违背了开 - 闭原则。模板的惰性：延迟编译 • 要证明模板的惰性，只需看这个例子： • 要是编译器哪怕细看了一眼：字符串怎么可能被写入呢？肯定是会出错的。 • 但是却没有出错，这是因为模板没有被调用，所以不会被实际编译！ • 而只有当 main 调用了这个函数，才会被编译，才会报错！ • 用一个假模板实现延迟编译的技术，可以加快编译的速度，用于代理模式等。模板函数：一个例子

0 码力 | 82 页 | 12.15 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

的企业或个人群体舆情传导营销传导风险传导 …  计算某个事件在关联的企业、个人之间的传递过程和传递概率图深度学习及其应用场景图嵌入 • 将高维的图信息映射到低维向量中 • 通过图嵌入将客户关系表示为低维向量，可以结合其他客户行为特征进行机器学习训练图卷积神经网络 • 对图结构数据进行卷积计算 • 通过已有的企业数据，通过 GCN 进行半监督学习和分类，预测企业的违约概率近客户需求） • 现有开源产品无法满足要求（受限于基础架构设计，优化性能有限）新一代分布式图数据库需具备的特性特性信雅达 • 高可用 • 一致性（事务） • 高性能 • 低资源消耗 • 易用 • 功能丰富 AtlasGraph 关键特性云原生 Cloud-Native Graph Database 支持弹性伸缩，有效利用硬件资源，高可用，高可靠，故障自愈，低成本运维

0 码力 | 38 页 | 24.68 MB | 1 年前
3

共 16 条前往

页

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

Rust分布式账务系统 - 胡宇

Rust 异步并发框架在移动端的应用 - 陈明煜

Zadig 面向开发者的云原生 DevOps 平台

Zadig 产品使用手册

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

新一代分布式高性能图数据库的构建 - 沈游人