加速层 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

cpu-bound 与 memory-bound • 通常来说，并行只能加速计算的部分，不能加速内存读写的部分。 • 因此，对 fill 这种没有任何计算量，纯粹只有访存的循环体，并行没有加速效果。称为内存瓶颈（ memory-bound ）。 • 而 sine 这种内部需要泰勒展开来计算，每次迭代计算量很大的循环体，并行才有较好的加速效果。称为计算瓶颈（ cpu- bound ）。 • 并指的是分支预测是否成功。多少计算量才算多？ • 看右边的 func ，够复杂了吧？也只是勉勉强强超过一点内存的延迟了，但在 6 个物理核心上并行加速后，还是变成 mem-bound 了。 • 加速比： 1.36 倍 • 应该达到 6 倍（物理核心数量）才算理想加速比。加速曲线 • funcA 用了 2 核就饱和。 • funcB 用了 4 核才饱和。 • funcC 用了 6 核才饱和。 • 时，我们的缓存装不下了，不得不把之前存储的 a[i] 写回主内存。 • 这种代码在主内存看来， CPU 做的事情相当于：读 + 写，从而每个元素只需要访问两遍内存。对这种完全 mem-bound 的程序而言就是加速了 2 倍。测试结果可见，能否很好的利用缓存，和程序访问内存的时间局域性有关。案例：一维 jacobi 迭代 • 一些物理仿真中，常用到这种形式的迭代法： • for (i=0...n)

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

1 分钟后 4 个处理器都渲染完毕得到结果。 • 最后只需将 4 个小块拼接起来即可得到完整的 cornell box 图像。总共只花了 1 分钟。图形学爱好者：我看中的是多核，目的是加速比，如果是单核，那多线程对我无用！某互联网公司：我看中的是异步，目的是无阻塞，即使是单核，多线程对我也有用。因特尔开源的并行编程库： TBB https://link.springer.com/chapter/10 任务，一个负责下载，一个负责和用户交互。并在主线程中等待该任务组里的任务全部执行完毕。 • 区别在于，一个任务不一定对应一个线程，如果任务数量超过 CPU 最大的线程数，会由 TBB 在用户层负责调度任务运行在多个预先分配好的线程，而不是由操作系统负责调度线程运行在多个物理核心。封装好了： parallel_invoke 更好的例子第 1 章：并行循环时间复杂度（ time-efficiency 至有牺牲工作复杂度换取时间复杂度的情形。 • 并行算法的复杂度取决于数据量 n ，还取决于线程数量 c ，比如 O(n/c) 。不过要注意如果线程数量超过了 CPU 核心数量，通常就无法再加速了，这就是为什么要买更多核的电脑。 • 也有一种说法，认为要用 c 趋向于无穷时的时间复杂度来衡量，比如 O(n/c) 应该变成 O(1) 。映射（ map ） 1 个线程，独自处理 8 个元素的映射，花了

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

float 的代码，从而增强你程序的吞吐能力！ • 通常认为利用同时处理 4 个 float 的 SIMD 指令可以加速 4 倍。但是如果你的算法不适合 SIMD ，则可能加速达不到 4 倍；也有因为 SIMD 让访问内存更有规律，节约了指令解码和指令缓存的压力等原因，出现加速超过 4 倍的情况。第 1 章：化简编译器优化：代数化简编译器优化：常量折叠编译器优化：举个例子编译器优化：我毕竟不是万能的 memcpy/memset 的调用，影响可读性。编译器会自动分析你是在做拷贝或是清零，并优化成对标准库这俩的调用。从 0 到 1024 填充： SIMD 加速 paddd ：四个 int 的加法 movdqa ：加载四个 int 从 0 到 1024 填充： SIMD 加速（续）看不懂？小彭老师解析一下。右边是方便大家理解的伪代码：一次写入 4 个 int ，一次计算 4 个 int 的加法，从而更加高大小的数组存储为 AOS 。优点： SOA 便于 SIMD 优化； AOS 便于存储在传统容器； AOSOA 两者得兼！是王鑫磊的最爱。缺点：需要两层 for 循环，不利于随机访问；需要数组大小是 4 的整数倍，不过可以用边界特判法解决。测试一下加速了多少倍？优化前：优化后：测试结果 SOA + unroll 的方案，比优化前快了 5 倍！并行情况下最快的也是 SOA 。

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

parallel for collapse(2) 遍历二维区间。把 func 捕获为 firstprivate ，从而支持用 lambda 捕获的访问者模式。实现访问者模式 • 额，总之就是每一层都有一个缓存。第 5 章：量化整型使用 int ：每个占据 4 字节 • 记得我第七课说过，一个简单的循环体往往会导致内存成为瓶颈（ memory- bound ）。 • 右边就是一个很好的例子。 • 这是因为 i % 2 的计算时间，完全隐藏在内存的超高延迟里了。 • 可见，当数据量足够大，计算量却不多时，读写数据量的大小唯一决定着你的性能。 • 特别是并行以后，计算量可以被并行加速，而访存却不行。使用 int8_t ：每个占据 1 字节 • 因此我们可以把数据类型变小，这样所需的内存量就变小，从而内存带宽也可以减小！ • 对于右边这种内存瓶颈的循环体，从 4 字节的 100 （看图可知：浮点数在 0 附近精度高）定点数的好处：用 int16_t 表示 • 转成定点数的一大好处就是可以用任意大小的整数来存储。这样就节省了一半带宽，从而加速了 2 倍。能不能再小一点：用 int8_t 表示 • 发现结果不对了……说明 int8_t 太小了（可以容纳 - 128 到 127 ），容纳不下 97*100 这么大的数，发生了溢出导致结果错误。

0 码力 | 102 页 | 9.50 MB | 1 年前
3
《深入浅出MFC》2/e

感到生疏，主要是函数的运用和函数的参数十分复杂。我对WINDOWS SDK 编程较少，是否应该要熟悉WINDOWS API 函数后，结合MFC 框架编程？侯俊杰回复：的确如此。MFC 其实就是把Windows API 做了一层薄薄包装，包装于各个设计良好的classes 而已。所以，掌握了MFC framework 架构组织之后，接下来在programming 实务方面，就是去了解并运用各个classes，而各个classes 知悉。ClassWizard 将在稍后介绍。加速键（Accelerator）编辑器 AppWizard 已经为骨干程序中的许多标准菜单项目设计了加速键。通常加速键是两个按键的组合（例如Alt + N），用以取代鼠标在层层菜单中的拉下、选按动作。所有的加速键设定都集中在RC 文件的加速键表格中，双击其中任何一个，就会出现加速键编辑器为你服务。你可以利用它改变加速键的按键组合。选按图左ResourceVi 接受度。Windows API 是程序性的， Application Framework 则让你写对象导向式的Windows 程序. 它们提供预先写好的机能（以C++ 类别型式呈现出来），可以加速应用软件的开发。 Application Framework 提供数种优点. 或许最重要的, 是它们在对象导向程序设计模式下对Windows 程序设计过程的影响。你可以使用Framework 来减轻例行但繁复的琐

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

进一步求值： if (“world” MATCHES “Hello”) 从而会执行假分支，结果不正常了。解决：用引号包裹起来，防止被当做变量名初学者如果搞不明白，可以把所有不确定的地方都套上一层引号，例如” ${MYVAR}” ，这样就可以避免被 if 当做变量名来求值了。第 10 章：变量与作用域变量的传播规则：父会传给子 • 父模块里定义的变量，会传递给子模块。变量的传播规则：子不传给父 • 如果父模块里本来就定义了同名变量，则离开子模块后仍保持父模块原来设置的值。如果子模块需要向父模块里传变量怎么办？ • 可以用 set 的 PARENT_SCOPE 选项，把一个变量传递到上一层作用域（也就是父模块）。如果子模块需要向父模块里传变量怎么办？ • 如果父模块里没有定义 MYVAR 的话，也可以用缓存变量向外部传变量（不推荐）。但是这样就不光父模块可见了，父模块的父模块，到处都可见。 (DEFINED CACHE{x}) 判断是否存在这个缓存变量，但是 set(CACHE{x} ...) 就不行。从 bash 设置环境变量试试看第 11 章：其他小建议 CCache ：编译加速缓存 • 用法：把 gcc -c main.cpp -o main 换成 ccache gcc -c main.cpp -o main 即可 • 在 CMake 中可以这样来启用 ccache （就是给每个编译和链接命令前面加上

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

因此可以通过网格跨步循环增加每个线程访问 arr 的次数，从而超过共享内存部分的时间。 • 当然也别忘了在 main 中增加 gridDim 的大小。通过模板函数包装一下使用板块局部数组（共享内存）来加速数组求和这就是胡渊鸣所说的 BLS （ block-local storage ）进一步，当数组非常大，缩减后的数组可以继续递归地用 GPU 求和 • 这是第六课说过的方法。递归地缩并，时间复杂度是为什么需要多维？直接手动求模运算获取 x ， y 坐标不行吗？看右边这个例子。 • 回顾一下：我们第七课讲过， CPU 上的并行 for ，通常会做循环分块提升缓存局域性。但是如果我们是传统的两层的 for 循环就低效了，对于矩阵转置这种需要 y 方向非连续访问而言，循环分块会带来很大提升。 • 所以该怎么做才能让 GPU 也循环分块呢？第七课（访存优化）的录播可以看这里：

0 码力 | 142 页 | 13.52 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

”。 2. 归：触发“终止条件”后，程序从最深层的递归函数开始逐层返回，汇聚每一层的结果。而从实现的角度看，递归代码主要包含三个要素。 1. 终止条件：用于决定什么时候由“递”转“归”。 2. 递归调用：对应“递”，函数调用自身，通常输入更小或更简化的参数。 3. 返回结果：对应“归”，将当前递归层级的结果返回至上一层。观察以下代码，我们只需调用函数 recur(n) ，就可以完成间效率上与迭代相当。这种情况被称为尾递归（tail recursion）。 ‧ 普通递归：当函数返回到上一层级的函数后，需要继续执行代码，因此系统需要保存上一层调用的上下文。 ‧ 尾递归：递归调用是函数返回前的最后一个操作，这意味着函数返回到上一层级后，无须继续执行其他操作，因此系统无须保存上一层函数的上下文。以计算 1 + 2 + ⋯ + ? 为例，我们可以将结果变量 res 设为函数参数，从而实现尾递归：省略所有系数。例如，循环 2? 次、5? + 1 次等，都可以简化记为 ? 次，因为 ? 前面的系数对时间复杂度没有影响。 3. 循环嵌套时使用乘法。总操作数量等于外层循环和内层循环操作数量之积，每一层循环依然可以分别套用第 1. 点和第 2. 点的技巧。给定一个函数，我们可以用上述技巧来统计操作数量： void algorithm(int n) { int a = 1; // +0（技巧

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.0.0 C++版

”。 2. 归：触发“终止条件”后，程序从最深层的递归函数开始逐层返回，汇聚每一层的结果。而从实现的角度看，递归代码主要包含三个要素。 1. 终止条件：用于决定什么时候由“递”转“归”。 2. 递归调用：对应“递”，函数调用自身，通常输入更小或更简化的参数。 3. 返回结果：对应“归”，将当前递归层级的结果返回至上一层。观察以下代码，我们只需调用函数 recur(n) ，就可以完成间效率上与迭代相当。这种情况被称为「尾递归 tail recursion」。 ‧ 普通递归：当函数返回到上一层级的函数后，需要继续执行代码，因此系统需要保存上一层调用的上下文。 ‧ 尾递归：递归调用是函数返回前的最后一个操作，这意味着函数返回到上一层级后，无须继续执行其他操作，因此系统无须保存上一层函数的上下文。以计算 1 + 2 + ⋯ + ? 为例，我们可以将结果变量 res 设为函数参数，从而实现尾递归：省略所有系数。例如，循环 2? 次、5? + 1 次等，都可以简化记为 ? 次，因为 ? 前面的系数对时间复杂度没有影响。 3. 循环嵌套时使用乘法。总操作数量等于外层循环和内层循环操作数量之积，每一层循环依然可以分别套用第 1. 点和第 2. 点的技巧。给定一个函数，我们可以用上述技巧来统计操作数量： void algorithm(int n) { int a = 1; // +0（技巧

0 码力 | 378 页 | 17.59 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

”。 2. 归：触发“终止条件”后，程序从最深层的递归函数开始逐层返回，汇聚每一层的结果。而从实现的角度看，递归代码主要包含三个要素。 1. 终止条件：用于决定什么时候由“递”转“归”。 2. 递归调用：对应“递”，函数调用自身，通常输入更小或更简化的参数。 3. 返回结果：对应“归”，将当前递归层级的结果返回至上一层。观察以下代码，我们只需调用函数 recur(n) ，就可以完成间效率上与迭代相当。这种情况被称为尾递归（tail recursion）。 ‧ 普通递归：当函数返回到上一层级的函数后，需要继续执行代码，因此系统需要保存上一层调用的上下文。 ‧ 尾递归：递归调用是函数返回前的最后一个操作，这意味着函数返回到上一层级后，无须继续执行其他操作，因此系统无须保存上一层函数的上下文。以计算 1 + 2 + ⋯ + ? 为例，我们可以将结果变量 res 设为函数参数，从而实现尾递归：省略所有系数。例如，循环 2? 次、5? + 1 次等，都可以简化记为 ? 次，因为 ? 前面的系数对时间复杂度没有影响。 3. 循环嵌套时使用乘法。总操作数量等于外层循环和内层循环操作数量之积，每一层循环依然可以分别套用第 1. 点和第 2. 点的技巧。给定一个函数，我们可以用上述技巧来统计操作数量： void algorithm(int n) { int a = 1; // +0（技巧

0 码力 | 379 页 | 18.48 MB | 10 月前
3

共 23 条前往

页

C++高性性能高性能并行编程优化课件 07 06 04 10 深入深入浅出MFC 11 08 Hello 算法 1.1 1.0 1.2 简体中文简体中文

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

《深入浅出MFC》2/e

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

Hello 算法 1.1.0 C++ 版

Hello 算法 1.0.0 C++版

Hello 算法 1.2.0 简体中文 C++ 版