循环 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

通常来说，并行只能加速计算的部分，不能加速内存读写的部分。 • 因此，对 fill 这种没有任何计算量，纯粹只有访存的循环体，并行没有加速效果。称为内存瓶颈（ memory-bound ）。 • 而 sine 这种内部需要泰勒展开来计算，每次迭代计算量很大的循环体，并行才有较好的加速效果。称为计算瓶颈（ cpu- bound ）。 • 并行能减轻计算瓶颈，但不减轻内存瓶颈，故后者是优化的重点 1024 并非随意选取，而是要让每个属性 SOA 数组的大小为一个页（ 4KB ）才能最高效，原因稍后会说明。 AOSOA ：注意，内部 SOA 的尺寸不宜太小如果内部 SOA 太小，内部循环只有 16 次连续的读取， 16 次结束后就会跳跃一段，然后继续连续的读取。这会导致 CPU 预取机制失效，无法预测下一次要读哪里，等发现跳跃时已经来不及了，从而计算的延迟无法隐藏。如果每个属性都要访问到，那还是解的伪代码，延迟和花费的时钟周期等。第 4 章：循环合并法两个循环体 • 原始的代码第一个循环体执行 a[i] = a[i] * 2 ，等乘法全部结束了以后，再来一个循环体执行 a[i] = a[i] + 1 。 • 因为第一遍循环过了 1GB 的数据，执行到 a[n-1] 时，原本 a[0] 处的缓存早已失效，因此第二遍循环开始读取 a[0] 时必须重新从主内存读取，然后再次写回主

0 码力 | 147 页 | 18.88 MB | 1 年前
3
Hello 算法 1.0.0b5 C++版

1. 将扑克牌划分为“有序”和“无序”两部分，并假设初始状态下最左 1 张扑克牌已经有序。 2. 在无序部分抽出一张扑克牌，插入至有序部分的正确位置；完成后最左 2 张扑克已经有序。 3. 不断循环步骤 2. ，每一轮将一张扑克牌从无序部分插入至有序部分，直至所有扑克牌都有序。图 1‑2 扑克排序步骤上述整理扑克牌的方法本质上是“插入排序”算法，它在处理小型数据集时非常高效。许多编程语言的排序 iteration」是一种重复执行某个任务的控制结构。在迭代中，程序会在满足一定的条件下重复执行某段代码，直到这个条件不再满足。 1. for 循环 for 循环是最常见的迭代形式之一，适合预先知道迭代次数时使用。以下函数基于 for 循环实现了求和 1 + 2 + ⋯ + ? ，求和结果使用变量 res 记录。需要注意的是，Python 中 range(a, b) 对应的区间是“左闭右开”的，对应的遍历范围为对应的区间是“左闭右开”的，对应的遍历范围为 ?, ? + 1, … , ? − 1 。 // === File: iteration.cpp === /* for 循环 */ int forLoop(int n) { int res = 0; // 循环求和 1, 2, ..., n-1, n for (int i = 1; i <= n; ++i) { res += i; } return res;

0 码力 | 377 页 | 30.69 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

1. 将扑克牌划分为“有序”和“无序”两部分，并假设初始状态下最左 1 张扑克牌已经有序。 2. 在无序部分抽出一张扑克牌，插入至有序部分的正确位置；完成后最左 2 张扑克已经有序。 3. 不断循环步骤 2. ，每一轮将一张扑克牌从无序部分插入至有序部分，直至所有扑克牌都有序。图 1‑2 扑克排序步骤上述整理扑克牌的方法本质上是“插入排序”算法，它在处理小型数据集时非常高效。许多编程语言的排序迭代（iteration）是一种重复执行某个任务的控制结构。在迭代中，程序会在满足一定的条件下重复执行某段代码，直到这个条件不再满足。 1. for 循环 for 循环是最常见的迭代形式之一，适合在预先知道迭代次数时使用。以下函数基于 for 循环实现了求和 1 + 2 + ⋯ + ? ，求和结果使用变量 res 记录。需要注意的是，Python 中 range(a, b) 对应的区间是“左闭右开”的，对应的遍历范围为对应的区间是“左闭右开”的，对应的遍历范围为 ?, ? + 1, … , ? − 1 ： // === File: iteration.cpp === /* for 循环 */ int forLoop(int n) { int res = 0; // 循环求和 1, 2, ..., n-1, n for (int i = 1; i <= n; ++i) { res += i; } return res;

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.0.0 C++版

1. 将扑克牌划分为“有序”和“无序”两部分，并假设初始状态下最左 1 张扑克牌已经有序。 2. 在无序部分抽出一张扑克牌，插入至有序部分的正确位置；完成后最左 2 张扑克已经有序。 3. 不断循环步骤 2. ，每一轮将一张扑克牌从无序部分插入至有序部分，直至所有扑克牌都有序。图 1‑2 扑克排序步骤上述整理扑克牌的方法本质上是“插入排序”算法，它在处理小型数据集时非常高效。许多编程语言的排序 iteration」是一种重复执行某个任务的控制结构。在迭代中，程序会在满足一定的条件下重复执行某段代码，直到这个条件不再满足。 1. for 循环 for 循环是最常见的迭代形式之一，适合在预先知道迭代次数时使用。以下函数基于 for 循环实现了求和 1 + 2 + ⋯ + ? ，求和结果使用变量 res 记录。需要注意的是，Python 中 range(a, b) 对应的区间是“左闭右开”的，对应的遍历范围为对应的区间是“左闭右开”的，对应的遍历范围为 ?, ? + 1, … , ? − 1 ： // === File: iteration.cpp === /* for 循环 */ int forLoop(int n) { int res = 0; // 循环求和 1, 2, ..., n-1, n for (int i = 1; i <= n; ++i) { res += i; } return res;

0 码力 | 378 页 | 17.59 MB | 1 年前
3
Hello 算法 1.0.0b1 C++版

的字，一般我们会这样做： 1. 打开字典大致一半页数的位置，查看此页的首字母是什么（假设为 ? ）； 2. 由于在英文字母表中 ? 在 ? 的后面，因此应排除字典前半部分，查找范围仅剩后半部分； 3. 循环执行步骤 1‑2 ，直到找到拼音首字母为 ? 的页码时终止。 1. 引言 hello‑algo.com 9 Figure 1‑1. 查字典步骤查字典这个小学生的标配技能，实际上就是大名鼎鼎的 // 在某运行平台下 void algorithm(int n) { int a = 2; // 1 ns a = a + 1; // 1 ns a = a * 2; // 10 ns // 循环 n 次 for (int i = 0; i < n; i++) { // 1 ns ，每轮都要执行 i++ 2. 复杂度分析 hello‑algo.com 14 cout << 0 << endl; A 只有 1 个打印操作，算法运行时间不随着 ? 增大而增长。我们称此算法的时间复杂度为「常数阶」。 ‧ 算法 B 中的打印操作需要循环 ? 次，算法运行时间随着 ? 增大成线性增长。此算法的时间复杂度被称为「线性阶」。 ‧ 算法 C 中的打印操作需要循环 1000000 次，但运行时间仍与输入数据大小 ? 无关。因此 C 的时间复杂度和 A 相同，仍为「常数阶」。 // 算法 A 时间复杂度：常数阶

0 码力 | 187 页 | 14.71 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

1. 将扑克牌划分为“有序”和“无序”两部分，并假设初始状态下最左 1 张扑克牌已经有序。 2. 在无序部分抽出一张扑克牌，插入至有序部分的正确位置；完成后最左 2 张扑克已经有序。 3. 不断循环步骤 2. ，每一轮将一张扑克牌从无序部分插入至有序部分，直至所有扑克牌都有序。图 1‑2 扑克排序步骤上述整理扑克牌的方法本质上是“插入排序”算法，它在处理小型数据集时非常高效。许多编程语言的排序迭代（iteration）是一种重复执行某个任务的控制结构。在迭代中，程序会在满足一定的条件下重复执行某段代码，直到这个条件不再满足。 1. for 循环 for 循环是最常见的迭代形式之一，适合在预先知道迭代次数时使用。以下函数基于 for 循环实现了求和 1 + 2 + ⋯ + ? ，求和结果使用变量 res 记录。需要注意的是，Python 中 range(a, b) 对应的区间是“左闭右开”的，对应的遍历范围为对应的区间是“左闭右开”的，对应的遍历范围为 ?, ? + 1, … , ? − 1 ： // === File: iteration.cpp === /* for 循环 */ int forLoop(int n) { int res = 0; // 循环求和 1, 2, ..., n-1, n for (int i = 1; i <= n; ++i) { res += i; } return res;

0 码力 | 379 页 | 18.48 MB | 10 月前
3
Hello 算法 1.0.0b2 C++版

的字，一般我们会这样做： 1. 打开字典大致一半页数的位置，查看此页的首字母是什么（假设为 ? ）； 2. 由于在英文字母表中 ? 在 ? 的后面，因此应排除字典前半部分，查找范围仅剩后半部分； 3. 循环执行步骤 1‑2 ，直到找到拼音首字母为 ? 的页码时终止。 1. 引言 hello‑algo.com 9 Figure 1‑1. 查字典步骤查字典这个小学生的标配技能，实际上就是大名鼎鼎的 // 在某运行平台下 void algorithm(int n) { int a = 2; // 1 ns a = a + 1; // 1 ns a = a * 2; // 10 ns // 循环 n 次 for (int i = 0; i < n; i++) { // 1 ns ，每轮都要执行 i++ 2. 复杂度分析 hello‑algo.com 14 cout << 0 << endl; A 只有 1 个打印操作，算法运行时间不随着 ? 增大而增长。我们称此算法的时间复杂度为「常数阶」。 ‧ 算法 B 中的打印操作需要循环 ? 次，算法运行时间随着 ? 增大成线性增长。此算法的时间复杂度被称为「线性阶」。 ‧ 算法 C 中的打印操作需要循环 1000000 次，但运行时间仍与输入数据大小 ? 无关。因此 C 的时间复杂度和 A 相同，仍为「常数阶」。 // 算法 A 时间复杂度：常数阶

0 码力 | 197 页 | 15.72 MB | 1 年前
3
Hello 算法 1.0.0b4 C++版

2. 在无序区间抽出一张扑克牌，插入至有序区间的正确位置；完成后最左 2 张扑克已经有序。 3. 在无序区间抽出一张扑克牌，插入至有序区间的正确位置；完成后最左 3 张扑克已经有序。 4. 不断循环以上操作，直至所有扑克牌都有序后终止。以上整理扑克牌的方法本质上就是「插入排序」算法，它在处理小型数据集时非常高效。许多编程语言的排序库函数中都存在插入排序的身影。 Figure 1‑2. // 在某运行平台下 void algorithm(int n) { int a = 2; // 1 ns a = a + 1; // 1 ns a = a * 2; // 10 ns // 循环 n 次 for (int i = 0; i < n; i++) { // 1 ns ，每轮都要执行 i++ cout << 0 << endl; // 5 ns } } 2. 复杂度 hello‑algo 只有 1 个打印操作，算法运行时间不随着 ? 增大而增长。我们称此算法的时间复杂度为「常数阶」。 ‧ 算法 B 中的打印操作需要循环 ? 次，算法运行时间随着 ? 增大呈线性增长。此算法的时间复杂度被称为「线性阶」。 ‧ 算法 C 中的打印操作需要循环 1000000 次，但运行时间仍与输入数据大小 ? 无关。因此 C 的时间复杂度和 A 相同，仍为「常数阶」。 // 算法 A 时间复杂度：常数阶

0 码力 | 343 页 | 27.39 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

movups 变成了 movaps 对齐的读写可能带来微乎其微的性能提升…… 数组求和： reduction 的优化你看懂了吗？没关系！小彭老师也没看懂！总之非常高效就对了！第 5 章：循环循环中的矢量化：还在伺候指针别名我们可怜的编译器啊！他还在担心 a 和 b 指向的数组是否有重合。考虑 func(a, a + 1) 的情况，那样会产生数据依赖链，没法 SIMD 化。为了优化而不失正确性，他索性生成两份代码： SIMD 版本高效运行。 2. 如果重叠，则跳转到标量版本低效运行，但至少不会错。 SIMD 版标量版循环中的矢量化：解决指针别名所以，让我们加上 __restrict 关键字，打消编译器的顾虑！这下只需要生成一个 SIMD 版本了，没有了运行时判断重叠的焦虑。 SIMD 版循环中的矢量化： OpenMP 强制矢量化除了可以用 __restrict 让编译器放心做 SIMD 优化外，还可以用这个选项。循环中的矢量化：编译器提示忽略指针别名 • 除了可以用 __restrict ， #pragma omp simd 外，对于 GCC 编译器还可以用： • #pragma GCC ivdep • 表示忽视下方 for 循环内可能的指针别名现象。 • 不同的编译器这个 pragma 指令不同，这里只是拿 GCC 举例，其他编译器请自行查找资料。循环中的 if 语句：挪到外面来

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

for 循环是串行的，我们可以把线程数量调为 n ，然后用 threadIdx.x 作为 i 索引。这样就实现了，每个线程负责给数组中一个元素的赋值。小技巧：网格跨步循环（ grid-stride loop ） • 无论调用者指定了多少个线程（ blockDim ），都能自动根据给定的 n 区间循环，不会越界，也不会漏掉几个元素。 • 这样一个 for 循环非常符合，如果超过就要提前退出，防止越界。网格跨步循环：应用于线程和板块一起上的情况 • 网格跨步循环实际上本来是这样，利用扁平化的线程数量和线程编号实现动态大小。 • 同样，无论调用者指定每个板块多少线程（ blockDim ），总共多少板块（ gridDim ）。都能自动根据给定的 n 区间循环，不会越界，也不会漏掉几个元素。 • 这样一个 for 循环非常符合 CPU 上常见的 parallel 看右边，这就是为什么我们用于 x_host 那个 for_each 的 lambda 没有修饰，而用于 x_dev 的那个 lambda 需要修饰 __device__ 。 for_each 用于整数的循环： counting_iterator • 可以用 thrust::make_counting_iterator(num) 构建一个计数迭代器，他作为区间表示的就是整数的区间。合并多个迭代器为一个：

0 码力 | 142 页 | 13.52 MB | 1 年前
3

共 24 条前往

页

C++高性性能高性能并行编程优化课件 07 Hello 算法 1.0 0b5 1.1 0b1 1.2 简体中文简体中文 0b2 0b4 04 08

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

Hello 算法 1.0.0b5 C++版

Hello 算法 1.1.0 C++ 版

Hello 算法 1.0.0 C++版

Hello 算法 1.0.0b1 C++版

Hello 算法 1.2.0 简体中文 C++ 版

Hello 算法 1.0.0b2 C++版

Hello 算法 1.0.0b4 C++版

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程