调优指南 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

现代 CMake 进阶指南 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 为什么要学习现代 CMake ？ • 现代 CMake 指的是 CMake 3.x 。 • 古代 CMake 指的是 CMake

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

现代 CMake 模块化项目管理指南彭于斌（ @archibate ）课件 & 源码： https://github.com/parallel101/course 往期录播： https://space.bilibili.com/263032155 找不到头文件怎么办呀 CMake Cookbook 小彭老师建议 : ~~-·~·~-·~ -~·-·~·- 第一章：文件 /

0 码力 | 56 页 | 6.87 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

角色：产品 / 架构开发测试运维运维 / 开发技术支持事件需求设计架构设计拆任务、写代码代码集成 xN 单元测试验证 xN 代码扫描 xN 自测、联调 xN 集成验证 xN 写测试用例系统验证 xN 自动化测试 xN 性能测试 xN 安全测试 xN 数据变更 xN 代码变更 xN 配置变更 xN 2022 年 9 月场景深化能力增强 Helm/K8s YAML/ 托管场景接入流程优化 UX/UI 升级，工程师一线体验优化推出效能看板，实时客观度量工程数据指标效率优化、开发者体验增强 2023 年面向生态伙伴开放场景面向开发者提供 IDE 插件 / 自测环境通用工作流广泛链接生态赋能开发者企业解决方案和最佳实践内置发布业务资源利用率提升 30% 统一治理内部规范，开发自助上线；解放运维，工作重心向业务稳定性保障，建设平台工程体系研发研发时间被大量占用： • 本地开发环境难模拟 • 多业务联调艰难，诊断耗时多 • 出现问题诊断耗时多 • 流程割裂协作痛苦，响应慢调试自测免打扰：本地 / 子环境免打扰，独立完成验证工作自助验证更高效：自动化工作流 + 云上环境，高效验证调试安全发布有信心：

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

用于定义核函数，他在 GPU 上执行，从 CPU 端通过三重尖括号语法调用，可以有参数，不可以有返回值。 • 而 __device__ 则用于定义设备函数，他在 GPU 上执行，但是从 GPU 上调用的，而且不需要三重尖括号，和普通函数用起来一样，可以有参数，有返回值。 • 即： host 可以调用 global ； global 可以调用 device ； device 可以调用 device 上的函数。同时定义在 CPU 和 GPU 上 • 通过 __host__ __device__ 这样的双重修饰符，可以把函数同时定义在 CPU 和 GPU 上，这样 CPU 和 GPU 都可以调用。让 constexpr 函数自动变成 CPU 和 GPU 都可以调用 • 这样相当于把 constexpr 函数自动变成修饰 __host__ __device__ ，从而两边都可以调用。比如这里设置了 RTX3000 系列的架构版本号 86 ，在 RTX2080 上就运行不出结果。 • 最坑的是他不会报错！也不输出任何东西！就像没有那个 kernel 一样！所以一定要注意调对你的版本号。否则就会这样 kernel 好像没有执行过一样，只有 CPU 上的代码被执行了。指定多个版本号 • 可以指定多个版本号，之间用分号分割。 • 运行时可以自动选择最适合当前显卡的版

0 码力 | 142 页 | 13.52 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

服务多活，保证图库不会出现单点故障。 Raft 服务高可用方案偏向分析型的分布式事务【 MVOCC 事务提交】基于多版本乐观并发控制技术的分布式事务实现，在保障一致性的前提下，提供优秀的分析性能分布式事务技术方案 MVOCC 处理流程全面的算法支持  覆盖全部常用算法 • 路径计算、社区检测、相似度计算等  丰富的自研图算法 • 环路识别、链路识别、节点间全路径、业务效果提升 10%+ 灵活易用的开发平台 • AtlasML Python Library • 集成 Jupyter Notebook 超参数自动优化 • 支持超参数自动调优，解放算法科学家生产力，避免繁杂的手动调参海致图神经网络平台特点 Rust 语言特性助力构建高性能图数据库 01 利用 Rust Stream 进行数据流式处理 02 03 协程和严格的内存安全性，编译

0 码力 | 38 页 | 24.68 MB | 1 年前
3
Zadig 产品使用手册

据变更、部署生产环境（变量变更、模板变更）、场景测试管理员 ( 运维 ) 准备——工作流管理员 ( 运维 ) 准备——工作流面向角色环境描述环境名称样例场景介绍开发工程师用于日常开发、联调 dev 如果 Java 栈实现灰度能力，可以通过新建环境随时拉起开发自测子环境如果采用 Istio + Skywalking 技术栈，通过 Zadig 开启自测模式随时拉起子环境测试工程师通知 Sprint 发布测试验证变更发布产品规划需求开发 Sprint 发布测试验证变更发布产品规划多人做集成联调——更新不同服务启动 dev 工作流，选择多个服务和对应的 MR 执行需求开发多人做集成联调——更新同一个服务启动 dev 工作流，选择多个服务以及其对应的多个 MR 执行 Sprint 发布测试验证变更发布产品规划需求开发来自顶级资本的多轮融资。自 Z a d i g 2 0 2 1 年开源以来，公司连续两年被评为 “ 开源中国 ” 的 “ 年度优秀开源技术团队 ” ， 2 0 2 2 年度 3 6 氪「新经济之王」基础软件赛道的 “ 年度企业 ” ， 2 0 2 2 年度 G A D

0 码力 | 52 页 | 22.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

tmp 对象的副本，防止多线程调用 func 出错。 • 返回时（或者进入时）调用 tmp.clear() 清除已有数据。由于 vector 的特性，他只会把 size() 标记为 0 并调用其成员的解构函数，而不会实际释放内存（ free ）。 • 因此第二次进入的时候，如果 n 不超过上一次的大小，就还是用的第一次分配的内存，避免了重新分配的开销。对 func 需要被重复调用的情况很实用。了，毕竟 16 次加法远远没有超过 membound 的范畴， cpubound 我们已经仁至义尽地尽量消除了。 • 如果单单采用手动预取，或者单单采用循环分块，那反而还会变慢。这就是性能调优中的一大难点：某个改动可能对性能没有效果，甚至反而产生负面效果。然而有经验的优化人员会知道，这不一定意味着这项改动是错的：有可能要配合多个改动一起上，才能有正面效果。 • 性能优化我们需要 blockSize 和 32 似乎一样了，所以 xBase 也可以直接去掉了。增加预取的提前量 • 预取的地址太靠近了，可能还是会让 CPU 陷入等待，无法隐藏计算的延迟。 • 再稍微往前调一点点试试看。 • 提前量不能太多，否则需要很大的缓存大小，否则到时候读的太多又得赶到二级缓存；也不能太少，否则等计算到那里的时候数据来不及取出，导致延迟无法隐藏。性能优化过山车：建议改成现代桃花源记

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

PPT 和代码： https://github.com/parallel101/course 本课涵盖：稀疏矩阵、 unordered_map 、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、 CFD 仿真、深度学习编程人员第 0 章：稀疏矩阵稠密数组存储矩阵用 foreach 包装一下枚举的过程改用 map 来存储分离 read/write/create 发现结果不对了……说明 int8_t 太小了（可以容纳 - 128 到 127 ），容纳不下 97*100 这么大的数，发生了溢出导致结果错误。试图解决：用 uint8_t 表示，定点数系数调小到 2 • 注意到我们的值始终是正数，因此可以用无符号的 uint8_t （可以容纳 0 到 255 ），然后把刚刚的系数 100 改小到 2 ，成功算对结果了，代价是精度损失了不少。

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

• 爱思考：为什么这里 Func 为 4 字节？ lambda 表达式：如何避免用模板参数 • 虽然这样可以让编译器对每个不同的 lambda 生成一次，有助于优化。 • 但是有时候我们希望通过头文件的方式分离声明和实现，或者想加快编译，这时如果再用 template class 作为参数就不行了。 • 为了灵活性，可以用 std::function 语言的 API 比如 pthread 和 atexit 。 lambda + 模板：双倍快乐 • 可以将 lambda 表达式的参数声明为 auto ，声明为 auto 的参数会自动根据调用者给的参数推导类型，基本上和 template 等价。 • auto const & 也是同理，等价于模板函数的 T const & 。 • 带 auto 参数的

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

即可实现同样效果，就不需要手动写 padding 变量了。那是不是所有结构体打上 alignas(16) 我的程序就会变快？错了，有可能不仅不变快，反而还变慢！ SIMD 和缓存行对齐只是性能优化的一个点，又不是全部。还要考虑结构体变大会导致内存带宽的占用，对缓存的占用等一系列连锁反应，总之，要根据实际情况选择优化方案。结构体的内存布局： AOS 与 SOA • AOS （ Array

0 码力 | 108 页 | 9.47 MB | 1 年前
3

共 16 条前往

页

C++高性性能高性能并行编程优化课件 11 16 Zadig 面向开发开发者原生 DevOps 平台 08 游人 RustCC AtlasGraph 产品使用手册使用手册 07 10 03 04

分类

语言

格式