Git分支 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

性能优化之无分支编程 Branchless Programming by 彭于斌（ @archibate ）两种代码写法：分支 vs 三目运算符两种使用方式：排序 vs 不排序测试结果（均为 gcc -O3 ）测试结果可视化图表比较：分支 vs 无分支分支无分支 0 0.01 0.02 0.03 耗时（越低越好）乱序有序 • 传统的分支方法实现的 uppercase uppercase ，对于排序过的数据明显比乱序时高效。 • 无分支的方法对于乱序和有序的数据一样高效，性能吊打了传统的分支方法。 • 对于传统分支的做法，为什么排序了的更高效？既然无分支更高效，我要怎样优化才能让我的程序变成无分支的呢？那就来看本期性能优化专题课吧！分支预测成败对性能的影响排序为什么对有分支的版本影响那么大为什么需要流水线 • 为了高效， CPU 的内部其实是一个流水让不占用相同资源的任务同时进行，这也是 CPU 流水线的初衷。但理想是美好的，现实是骨感的，对于程序来说，指令不只是一个个简单的任务，有时候我们需要做判断，来决定要执行的具体任务，这就是分支，在汇编语言中体现为条件跳转指令。 • 例如我们这里给任务清单加一个，如果烧开水时被烫伤，则直接去医院的特殊任务。 • 特点：一旦触发去医院这个支线，则后面的任务都不用做了，直接跳过。

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）为什么需要模板函数（ template ） • 避免重复写代码。 • 比如，利用重载实现“将一个数乘以这样显然是会被他自动优化掉的。模板的应用：编译期分支 • 更进一步，可以用 C++17 的 if constexpr 语法，保证是编译期确定的分支： • （下一讲会深入分析编译器的工作原理）模板的难题：编译期常量的限制 • 编译期常量的限制就在于他不能通过运行时变量组成的表达式来指定。比如： • 这里在 if constexpr 的表达式里用到了运行时变量，从而无法作为编译期分支的条件。模板的难题：编译期常量的限制（续）

0 码力 | 82 页 | 12.15 MB | 1 年前
3
Hello 算法 1.0.0b4 C++版

运行代码示例第一步：安装本地编程环境。请参照附录教程进行安装，如果已安装则可跳过此步骤。第二步：下载代码仓。如果已经安装 Git ，可以通过以下命令克隆本仓库。 git clone https://github.com/krahets/hello-algo.git 当然，你也可以点击“Download ZIP”直接下载代码压缩包，然后在本地解压即可。 0. 前言 hello‑algo.com preOrder(root->left); preOrder(root->right); // 回退 path.pop_back(); } 剪枝是一个非常形象的名词。在搜索过程中，我们“剪掉”了不满足约束条件的搜索分支，避免许多无意义的尝试，从而实现搜索效率的提高。 Figure 13‑3. 根据约束条件剪枝 13.1.3. 框架代码接下来，我们尝试将回溯的“尝试、回退、剪枝”的主体框架提炼出来，提升代码的通用性。 ‧ 遍历选择列表 choices 时，跳过所有已被选择过的节点，即剪枝。如下图所示，假设我们第一轮选择 1 ，第二轮选择 3 ，第三轮选择 2 ，则需要在第二轮剪掉元素 1 的分支，在第三轮剪掉元素 1, 3 的分支。 Figure 13‑6. 全排列剪枝示例观察上图发现，该剪枝操作将搜索空间大小从 ?(??) 降低至 ?(?!) 。代码实现想清楚以上信息之后，我们就可以在框架

0 码力 | 343 页 | 27.39 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

第一步：安装本地编程环境。请参照附录所示的教程进行安装，如果已安装，则可跳过此步骤。第二步：克隆或下载代码仓库。前往 GitHub 仓库。如果已经安装 Git ，可以通过以下命令克隆本仓库： git clone https://github.com/krahets/hello-algo.git 当然，你也可以在图 0‑4 所示的位置，点击“Download ZIP”按钮直接下载代码压缩包，然后在本地解压即可。第 res = fib(n - 1) + fib(n - 2); // 返回结果 f(n) return res; } 观察以上代码，我们在函数内递归调用了两个函数，这意味着从一个调用产生了两个调用分支。如图 2‑6 所示，这样不断递归调用下去，最终将产生一棵层数为 ? 的递归树（recursion tree）。图 2‑6 斐波那契数列的递归树从本质上看，递归体现了“将问题分解为更小子 com 214 循环完成后，? 指向最左边的 target ，? 指向首个小于 target 的元素，因此索引 ? 就是插入点。图 10‑6 二分查找重复元素的插入点的步骤观察以下代码，判断分支 nums[m] > target 和 nums[m] == target 的操作相同，因此两者可以合并。即便如此，我们仍然可以将判断条件保持展开，因为其逻辑更加清晰、可读性更好。第 10 章

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.0.0b5 C++版

运行代码的前置工作主要分为三步。第一步：安装本地编程环境。请参照附录教程进行安装，如果已安装则可跳过此步骤。第二步：下载代码仓。如果已经安装 Git ，可以通过以下命令克隆本仓库。 git clone https://github.com/krahets/hello-algo.git 当然，你也可以在图 0‑4 所示的位置，点击“Download ZIP”直接下载代码压缩包，然后在本地解压即可。第 0 章 res = fib(n - 1) + fib(n - 2); // 返回结果 f(n) return res; } 观察以上代码，我们在函数内递归调用了两个函数，这意味着从一个调用产生了两个调用分支。如图 2‑6 所示，这样不断递归调用下去，最终将产生一个层数为 ? 的「递归树 recursion tree」。图 2‑6 斐波那契数列的递归树本质上看，递归体现“将问题分解为更小子问，? 指向首个小于 target 的元素，因此索引 ? 就是插入点。第 10 章搜索 hello‑algo.com 214 图 10‑6 二分查找重复元素的插入点的步骤观察以下代码，判断分支 nums[m] > target 和 nums[m] == target 的操作相同，因此两者可以合并。即便如此，我们仍然可以将判断条件保持展开，因为其逻辑更加清晰、可读性更好。 // ===

0 码力 | 377 页 | 30.69 MB | 1 年前
3
Hello 算法 1.0.0 C++版

第一步：安装本地编程环境。请参照附录所示的教程进行安装，如果已安装，则可跳过此步骤。第二步：克隆或下载代码仓库。前往 GitHub 仓库。如果已经安装 Git ，可以通过以下命令克隆本仓库： git clone https://github.com/krahets/hello-algo.git 当然，你也可以在图 0‑4 所示的位置，点击“Download ZIP”按钮直接下载代码压缩包，然后在本地解压即可。第 res = fib(n - 1) + fib(n - 2); // 返回结果 f(n) return res; } 观察以上代码，我们在函数内递归调用了两个函数，这意味着从一个调用产生了两个调用分支。如图 2‑6 所示，这样不断递归调用下去，最终将产生一棵层数为 ? 的「递归树 recursion tree」。图 2‑6 斐波那契数列的递归树从本质上看，递归体现了“将问题分解为更小 com 215 循环完成后，? 指向最左边的 target ，? 指向首个小于 target 的元素，因此索引 ? 就是插入点。图 10‑6 二分查找重复元素的插入点的步骤观察以下代码，判断分支 nums[m] > target 和 nums[m] == target 的操作相同，因此两者可以合并。即便如此，我们仍然可以将判断条件保持展开，因为其逻辑更加清晰、可读性更好。第 10 章

0 码力 | 378 页 | 17.59 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：汇编语言 x64 架构下的寄存器模型通用寄存器： 32 位时代 • 32 位判。如果你是自己手写 SIMD 指令的话就要考虑一下这个。 n 总是 4 的倍数？避免边界特判如果你能保证 n 总是 4 的倍数，也可以这样写：编译器会发现 n % 4 = 0 ，从而不会生成边界特判的分支。假定指针是 16 字节对齐的： assume_aligned 如果能保证指针 a 总是对齐到 16 字节，在 GCC 编译器中这样写：但这样不通用，因此 C++20 引入了标准化的

0 码力 | 108 页 | 9.47 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

第一步：安装本地编程环境。请参照附录所示的教程进行安装，如果已安装，则可跳过此步骤。第二步：克隆或下载代码仓库。前往 GitHub 仓库。如果已经安装 Git ，可以通过以下命令克隆本仓库： git clone https://github.com/krahets/hello-algo.git 当然，你也可以在图 0‑4 所示的位置，点击“Download ZIP”按钮直接下载代码压缩包，然后在本地解压即可。第 res = fib(n - 1) + fib(n - 2); // 返回结果 f(n) return res; } 观察以上代码，我们在函数内递归调用了两个函数，这意味着从一个调用产生了两个调用分支。如图 2‑6 所示，这样不断递归调用下去，最终将产生一棵层数为 ? 的递归树（recursion tree）。图 2‑6 斐波那契数列的递归树从本质上看，递归体现了“将问题分解为更小子 com 214 循环完成后，? 指向最左边的 target ，? 指向首个小于 target 的元素，因此索引 ? 就是插入点。图 10‑6 二分查找重复元素的插入点的步骤观察以下代码，判断分支 nums[m] > target 和 nums[m] == target 的操作相同，因此两者可以合并。即便如此，我们仍然可以将判断条件保持展开，因为其逻辑更加清晰、可读性更好。第 10 章

0 码力 | 379 页 | 18.48 MB | 10 月前
3
Hello 算法 1.2.0 繁体中文 C++ 版

第一步：安裝本地程式設計環境。請參照附錄所示的教程進行安裝，如果已安裝，則可跳過此步驟。第二步：克隆或下載程式碼倉庫。前往 GitHub 倉庫。如果已經安裝 Git ，可以透過以下命令克隆本倉庫： git clone https://github.com/krahets/hello-algo.git 當然，你也可以在圖 0‑4 所示的位置，點選“Download ZIP”按鈕直接下載程式碼壓縮包，然後在本地解壓即可。 res = fib(n - 1) + fib(n - 2); // 返回結果 f(n) return res; } 觀察以上程式碼，我們在函式內遞迴呼叫了兩個函式，這意味著從一個呼叫產生了兩個呼叫分支。如圖 2‑6 所示，這樣不斷遞迴呼叫下去，最終將產生一棵層數為 ? 的遞迴樹（recursion tree）。圖 2‑6 費波那契數列的遞迴樹從本質上看，遞迴體現了“將問題分解為更小子問題”的思維範式，這種分治策略至關重要。 com 214 迴圈完成後，? 指向最左邊的 target ，? 指向首個小於 target 的元素，因此索引 ? 就是插入點。圖 10‑6 二分搜尋重複元素的插入點的步驟觀察以下程式碼，判斷分支 nums[m] > target 和 nums[m] == target 的操作相同，因此兩者可以合併。即便如此，我們仍然可以將判斷條件保持展開，因為其邏輯更加清晰、可讀性更好。第 10 章

0 码力 | 379 页 | 18.79 MB | 10 月前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

辑核陷入内存等待时切换到另一个逻辑核上执行，避免空转。 GPU 的解决方法就是单个 SM 执行很多个线程，然后在遇到内存等待时，就自动切换到另一个线程）板块内线程的同步 • 因此，我们可以给每个 if 分支后面加上 __syncthreads() 指令。 • 他的功能是，强制同步当前板块内的所有线程。也就是让所有线程都运行到 __syncthreads() 所在位置以后，才能继续执行下去。 • 绑在一起执行的，就像 CPU 的 SIMD 那样。因此如果出现分支（ if ）语句时，如果 32 个 cond 中有的为真有的为假，则会导致两个分支都被执行！不过在 cond 为假的那几个线程在真分支会避免修改寄存器和访存，产生副作用。而为了避免会产生额外的开销。因此建议 GPU 上的 if 尽可能 32 个线程都处于同一个分支，要么全部真要么全部假，否则实际消耗了两倍时间！避免修改寄存器和访存相当于避免修改寄存器和访存相当于 CPU 的 SIMD 指令 _mm_blendv_ps 和 _mm_store_mask_ps ，不过 GPU 这种 SIMT 的设计能够自动处理分支和循环的分歧，这是他门槛比 CPU 低的一点。

0 码力 | 142 页 | 13.52 MB | 1 年前
3

共 115 条前往

页

C++高性性能高性能并行编程优化课件 03 Hello 算法 1.0 0b4 1.1 0b5 04 1.2 简体中文简体中文繁体繁体中文 08

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

Hello 算法 1.0.0b4 C++版

Hello 算法 1.1.0 C++ 版

Hello 算法 1.0.0b5 C++版

Hello 算法 1.0.0 C++版

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

Hello 算法 1.2.0 简体中文 C++ 版

Hello 算法 1.2.0 繁体中文 C++ 版

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程