案例研究 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

周转的余地时间比较少，不利于延迟隐藏。而如果把这三条赛道合并成一条（ mc ），这样同样的经费（缓存容量）能铺出的赛道（预取）就更长，从而 CPU 有更长的周转时间来隐藏他内部计算的延迟。所以本案例中 AOS 比 SOA 好。 AOS 、 SOA 、 AOSOA 哪家强：结论 • 如果几个属性几乎总是同时一起用的，比如位置矢量 pos 的 xyz 分量，可能都是同时读取同时修改的，这时用做的事情相当于：读 + 写，从而每个元素只需要访问两遍内存。对这种完全 mem-bound 的程序而言就是加速了 2 倍。测试结果可见，能否很好的利用缓存，和程序访问内存的时间局域性有关。案例：一维 jacobi 迭代 • 一些物理仿真中，常用到这种形式的迭代法： • for (i=0...n) b[i] = a[i + 1] + a[i - 1]; // 假装是 jacobi • 防止写回操作污染缓存。 • 最终加速比： 24 倍。这里可以看到 i - 2 和 i + 2 跨步的访存似乎不是很理想，可能还能进亿步优化，出于时间原因就没继续深入，同学们可以课后研究一下。第 5 章：内存分配与分页 vector ：写入两次，时间都是一样的（理所当然） malloc ：写入两次，第一次明显比第二次慢？ new int[n] ：和 malloc 一样，写入两次，第一次明显比第二次慢？

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

// 获取两个时间点的差（时间段） • int64_t sec = chrono::duration_cast(dt).count(); // 时间差的秒数案例：计算花费的时间时间段：作为 double 类型 duration_cast 可以在任意的 duration 类型之间转换 duration 表示用 T 类型表示，且时间单位是 R std::future 。 • 同理有 std::promise ，他的 set_value() 不接受参数，仅仅作为同步用，不传递任何实际的值。第 3 章：互斥量多线程打架案例 • 两个线程试图往同一个数组里推数据。 • 奔溃了！为什么？ • vector 不是多线程安全（ MT-safe ）的容器。 • 多个线程同时访问同一个 vector 会出现数据竞争（相比普通的 std::mutex 有一定性能损失。 • 同理还有 std::recursive_timed_mutex ，如果你同时需要 try_lock_for() 的话。第 5 章：数据结构案例：多线程环境中使用 std::vector • 刚才说了， vector 不是多线程安全的容器。 • 多个线程同时访问同一个 vector 会出现数据竞争（ data-race ）现象。

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

。意思是我们访问了非法的地址，和 CPU 上的 Segmentation Fault 差不多。封装好了： helper_cuda.h • 其实 CUDA toolkit 安装时，会默认附带一系列案例代码，这些案例中提供了一些非常有用的头文件和工具类，比如这个文件： • /opt/cuda/samples/common/inc/helper_cuda.h • 把他和 helper_string 样和之前作为核函数参数是一样的，不过是作为 Func 结构体统一传入了。如何捕获外部变量？ • 或者在 [] 里这样直接写自定义捕获的表达式也是可以的，这样就可以用同一变量名。第 5 章：数学运算经典案例，并行地求 sin 值 • 就让我们在 GPU 上并行地计算从 sin(0) 到 sin(65535) 的值，并填入到数组 arr 中。 • 这里为什么用 sinf 而不是 sin ？ • 章：原子操作经典案例：数组求和 • 如何并行地对数组进行求和操作？ • 首先让我们试着用串行的思路来解题。 • 因为 __global__ 函数不能返回值，只能通过指针。因此我们先分配一个大小为 1 的 sum 数组，其中 sum[0] 用来返回数组的和。这样我们同步之后就可以通过 sum[0] 看到求和的结果了。 • 可是算出来的结果却明显不对，为什么？经典案例：数组求和

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

双精度浮点数 float 的底数有 52 位，指数有 11 位（图 2 ）。 double: float: http://c.biancheng.net/view/314.html 以求最大值为案例用定点数来表示 • 刚刚说到浮点数的特性是有指数位，可表示不同数量级上的数。 • 比如 123.4 实际上是 1.234 * 10^2 ，也就是他实际存储的是 234 （底数）和 2 （指数）。优点：平坦直观，适合插桩，顺序访问，自适应网格。 • 缺点：尺寸受限，操作系统挂钩，依赖 x86 硬件机制。 • 顺便一提， GPU 也可以搞 SPGrid ，不过 GPU 的页大小是 2MB ，王鑫磊最近研究过这个，因为太繁琐而放弃了。 http://pages.cs.wisc.edu/~sifakis/papers/SPGrid.pdf 今天的回家作业 • 用稀疏数据结构改良康威生命游戏 (conway’s

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）从一个案例看 C++ 的历史 • 求一个列表中所有数的和： # 参考资料 - [ 热心观众整理的学习资料 ](https://github.com/jiayaozhang/OpenVDB_and_TBB) 可变性 / 多线程等概念作为语言基本元素存在。这些在我们的业务里面是非常重要的，所以不可替代。 • （试图升华文章中心主旨）扩展阅读关键字 • 限于篇幅，此处放出一些扩展知识供学有余力的同学研究： 1. P-IMPL 模式 2. 虚函数与纯虚函数 3. 拷贝如何作为虚函数 4. std::unique_ptr::release() 5. std::enable_shared_from_this

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

char * 的爱恨纠葛 ( 本期 ) 4. 万能的 map 容器全家桶及其妙用举例 5. 函子 functor 与 lambda 表达式知多少 6. 通过实战案例来学习 STL 算法库 7. C++ 标准输入输出流 & 字符串格式化 8. traits 技术，用户自定义迭代器与算法 9. allocator ，内存管理与对象生命周期 ASCII 码需求，和字符串本身的实现有太多耦合。 https://en.cppreference.com/w/cpp/string/basic_string/to_string to_string 应用案例 std::to_wstring 数字转宽字符串 • 同理还有 to_wstring ，用于把数字转换为 wstring 类型字符串。 std::sto* 字符串转数字 • std::stoi/stof/stod parseInt/parseFloat/parseDouble 。 https://en.cppreference.com/w/cpp/string/basic_string/stol stoi 应用案例 • stoi 可以处理数字后面有多余字符的情况，例如 stoi(“42yuan”) 和 stoi(“42”) 等价，都会返回 42 。后面的 “ yuan” 会被 stoi 略去。 • 那如何才能知道哪些字符被

0 码力 | 162 页 | 40.20 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

2021 年 11 月 2021 年 12 月 1 个月功能改造 90% 功能实现开源技术社区雏形搭建 2022 年 3 月生态伙伴工具 + Zadig Zadig 企业交付案例场景深化开发者场景挖掘 3-5 个领域敏感型场景建立产品发展委员会贡献者流程优化 2022 年 9 月场景深化能力增强 Helm/K8s YAML/ 托管场景接入流程优化面向开发者的云原生环境扫码查看飞书集成测试案例 • 无缝对接主流测试框架 / 平台 • API/E2E/UI 自动化测试管理 • 与开发协同自动化验收 • 自动化测试效益分析高效协同的测试管理 • 一套 YAML/Chart 模板管理数百微服务 • 每个技术栈抽象一套构建模板 • 运维统一工作流规范，开发自主使用 • 跨多项目复用模板扫码查看易快报案例强大免运维的模板库 • 系统纬度：集群、项目、服务、环境、工作流高并发工作流触发：在 Zadig 上触发多服务的构建，研发更新服务更方便，不需要额外维护工作流的负担。 4 Zadig 企业案例实践剖析 “ ” 扫码下载致匠心电子书 Zadig 企业落地案例扫码查看案例细节典型案例： Zadig 帮助平均每周自动部署 1200 次 Zadig 可用性极高，没有

0 码力 | 59 页 | 81.43 MB | 1 年前
3
Await-Tree Async Rust 可观测性的灵丹妙药 - 赵梓淇

回顾 Async Rust 的设计与痛点 1 Await-Tree 的应用与真实案例 3 Await-Tree Async Rust 可观测性的灵丹妙药 Await-Tree 的设计原理与实现 2 回顾 Async Rust 的设计与痛点 1 Await-Tree 的应用与真实案例 3 Async Rust 的优势 • 异步编程的共同优势 • async/await Await-Tree Async Rust 可观测性的灵丹妙药 Await-Tree 的设计原理与实现 2 回顾 Async Rust 的设计与痛点 1 Await-Tree 的应用与真实案例 3 设计目标 Await Tree 的设计原理与实现 • 追踪关键 Future 的生命周期和控制流 • Init, First Poll, Pending, Next Poll, Ready Await-Tree Async Rust 可观测性的灵丹妙药 Await-Tree 的设计原理与实现 2 回顾 Async Rust 的设计与痛点 1 Await-Tree 的应用与真实案例 3 Await Tree 在 RisingWave 中的应用 • 云原生 SQL 流式数据库 • risingwave.com • GitHub 4.5k Stars • “Materialized

0 码力 | 37 页 | 8.60 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

net/weixin_42973508/article/details/111681426 详见 https://www.bilibili.com/video/BV1fa411r7zp 的 1:18:48 上一课的案例代码：基于标准库基于 TBB 的版本：任务组 • 用一个任务组 tbb::task_group 启动多个任务，一个负责下载，一个负责和用户交互。并在主线程中等待该任务组里的任务全部执行完毕。可见，并行后虽然降低了时间复杂度，但是以提升工作复杂度为代价！更多细节，敬请期待 GPU 专题，我们会以 CUDA 为例详细探讨两全方案。封装好了： parallel_scan 第 3 章：性能测试案例： map 与 reduce 的组合测试所花费时间： tbb::tick_count::now() 并行和串行的速度比较如何评价 • 公式：加速比 = 串行用时 ÷ 并行用时 • 理想加速比应该是核心的数量。字型的曲线遍历，这样能保证每次访问的数据在地址上比较靠近，并且都是最近访问过的，从而已经在缓存里可以直接读写，避免了从主内存读写的超高延迟。 • 下次课会进一步深入探讨访存优化，详细剖析这个案例，那么下周六 14 点敬请期待。第 6 章：并发容器 std::vector 扩容时会移动元素 • std::vector 内部存储了一个指针，指向一段容量 capacity 大于等于其

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

target_include_directories( 项目名 PUBLIC include) • 源码文件中写： • #include < 项目名 / 模块名 .h> • 项目名 :: 函数名 (); 完整案例请看源码仓库： https://github.com/parallel101/course/tree/master/16/00 推荐的目录组织方式 • 头文件（项目名 /include/ 项目名模块名 .h> • namespace 项目名 { • void 函数名 () { 函数实现 } • } 完整案例请看源码仓库： https://github.com/parallel101/course/tree/master/16/00 推荐的目录组织方式完整案例请看源码仓库： https://github.com/parallel101/course/tree/master/16/00 6/00 一、划分子项目 • 大型的项目，往往会划分为几个子项目。 • 即使你只有一个子项目，也建议你先创建一个子目录，方便以后追加新的子项目。 • 左图的案例中，我们在根目录下，创建了两个子项目 biology 和 pybmain ，他们分别在各自的目录下有自己的 CMakeLists.txt 。二、根项目的 CMakeLists.txt 配置 • 在根项目的 CMakeLists

0 码力 | 56 页 | 6.87 MB | 1 年前
3

共 19 条前往

页

C++高性性能高性能并行编程优化课件 07 05 08 10 02 15 Zadig 面向开发开发者原生 DevOps 平台赵梓 Await-Tree Rust 06 16

分类

语言

格式