API指令 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

Hidden Overhead of a Function API

performance, we typically think about the function logic. We’ll see that a well designed function API can have an even larger impact.How will we compare performance? ● Benchmarks at this low level are advance(RandIter& iter, Diff n, random_access_iterator_tag) { iter += n; } ● Access token to make some API available only inside the library (like the default “package private” access modifier in Java) Empty

0 码力 | 158 页 | 2.46 MB | 5 月前
3
GraphBLAS: Building a C++ Matrix API for Graph Algorithms

the important data structures and concepts? Prior work in the GraphBLAS community, C API Overview of our draft C++ API How might this interoperate with standard C++, graph library proposal? 4[DISTRIBUTION the important data structures and concepts? Prior work in the GraphBLAS community, C API Overview of our draft C++ API How might this interoperate with standard C++, graph library proposal? 5[DISTRIBUTION the important data structures and concepts? Prior work in the GraphBLAS community, C API Overview of our draft C++ API How might this interoperate with standard C++, graph library proposal? 6[DISTRIBUTION

0 码力 | 172 页 | 7.40 MB | 5 月前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

__host__ 和 __device__ 。通过 #ifdef 指令针对 CPU 和 GPU 生成不同的代码 • CUDA 编译器具有多段编译的特点。 • 一段代码他会先送到 CPU 上的编译器（通常是系统自带的编译器比如 gcc 和 msvc ）生成 CPU 部分的指令码。然后送到真正的 GPU 编译器生成 GPU 指令码。最后再链接成同一个文件，看起来好像只编译了一次一样，实际上你的代码会被预处理很这个变量，设置要针对哪个架构生成 GPU 指令码。 • 小彭老师的显卡是 RTX2080 ，他的版本号是 75 ，因此最适合他用的指令码版本是 75 。 • 如果不指定，编译器默认的版本号是 52 ，他是针对 GTX900 系列显卡的。 • 不过英伟达的架构版本都是向前兼容的，即版本号为 75 的 RTX2080 也可以运行版本号为 52 的指令码，虽然不够优化，但是至少能用。也就是要求：编译期指定的，而又不希望导回数据到 CPU 导致强制同步影响性能。这种模式被称为动态并行（ dynamic parallelism ）， OpenGL 有一个 glDispatchComputeIndirect 的 API 和这个很像，但毕竟没有 CUDA 可以直接在核函数里调用核函数并指定参数这么方便…… 不过，这个功能同样需要开启 CUDA_SEPARABLE_COMPILATION 。第 2 章：内存管理

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

t0 + 3; // 当前时间的三秒后 • usleep(3000000); // 让程序休眠 3000000 微秒，也就是 3 秒 • C 语言原始的 API ，没有类型区分，导致很容易弄错单位，混淆时间点和时间段。 • 比如 t0 * 3 ，乘法对时间点而言根本是个无意义的计算，然而 C 语言把他们看做一样的 long 类型，从而容易让程序员犯错。（概念）。比起虚函数和动态多态的接口抽象， concept 使实现和接口更加解耦合且没有性能损失。第 4 章：死锁同时锁住多个 mutex ：死锁难题 • 由于同时执行的两个线程，他们中发生的指令不一定是同步的，因此有可能出现这种情况： • t1 执行 mtx1.lock() 。 • t2 执行 mtx2.lock() 。 • t1 执行 mtx2.lock() ：失败，陷入等待 counter += i 在 CPU 看来会变成三个指令： 1. 读取 counter 变量到 rax 寄存器 2. rax 寄存器的值加上 1 3. 把 rax 写入到 counter 变量 • 即使编译器优化成 add [counter], 1 也没用，因为现代 CPU 为了高效，使用了大量奇技淫巧，比如他会把一条汇编指令拆分成很多微指令 (micro-ops) ，三个甚至有点保守估计了。

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

先对 a 预留一定的内存，避免频繁扩容影响性能。加速比： 5.98 倍并行筛选 6 使用 tbb::spin_mutex 替代 std::mutex 。 spin_mutex （基于硬件原子指令）会让 CPU 陷入循环等待，而不像 mutex （操作系统提供调度）会让线程进入休眠状态的等待。若上锁的区域较小，可以用轻量级的 spin_mutex 。若上锁的区域很大，则循环等待只会浪费 ch 替代？简单粗暴并行 for 加速比： 3.16 倍很不理想，为什么？很简单，循环体太大，每跑一遍指令缓存和数据缓存都会重新失效一遍。且每个核心都在读写不同地方的数据，不能很好的利用三级缓存，导致内存成为瓶颈。拆分为三个 for 加速比： 3.47 倍解决了指令缓存失效问题，但是三次独立的 for 循环每次结束都需要同步，一定程度上妨碍了 CPU 发挥性能；而且每个 step 后依然写回了数组，数据缓存没法充分利用。另辟蹊径：流水线并行加速比： 6.73 倍反直觉的并行方式，但是加速效果却很理想，为什么？流水线模式下每个线程都只做自己的那个步骤（ filter ），从而对指令缓存更友好。且一个核心处理完的数据很快会被另一个核心用上，对三级缓存比较友好，也节省内存。且 TBB 的流水线，其实比教科书上描述的传统流水线并行更加优化：他在 t1 线程算完 d1 的 s1

0 码力 | 116 页 | 15.85 MB | 1 年前
3
《深入浅出MFC》2/e

框架十分了解，但在编程过程中仍然感到生疏，主要是函数的运用和函数的参数十分复杂。我对WINDOWS SDK 编程较少，是否应该要熟悉WINDOWS API 函数后，结合MFC 框架编程？侯俊杰回复：的确如此。MFC 其实就是把Windows API 做了一层薄薄包装，包装于各个设计良好的classes 而已。所以，掌握了MFC framework 架构组织之后，接下来在programming 许多朋友曾经与我讨论过，对于MFC 这类application framework，应该挖掘其内部机制到什么程度？探究源代码，岂不有违「黑盒子」初衷？但是，没有办法，他们也同意，不把那些奇奇怪怪的宏和指令搞清楚，只能生产出玩具来。对付MFC 内部机制，态度不必像对付 MFC 类别一样；你只需好好走过那么一回，有个印象，足矣。至于庞大繁复的整个application framework 技术的铺陈與 MFC / 327 縱覽 MFC / 329 General Purpose classes / 330 Windows API classes / 333 深入淺出 MFC 18 Application framework classes / 334 High level

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
现代C++ 教程：高速上手C++11/14/17/20

C++ 中的编程范式。现代 C++ 还为自身的标准库增加了非常多的工具和方法，诸如在语言自身标准的层面上制定了 std::thread，从而支持了并发编程，在不同平台上不再依赖于系统底层的 API，实现了语言层面的跨平台支持；std::regex 提供了完整的正则表达式支持等等。C++98 已经被实践证明了是一种非常成功的『范型』，而现代 C++ 的出现，则进一步推动这种范型，让 C++ 5。但实际情况远比此复杂得多，或者说这段代码本身属于未定义的行为，因为对于 a 和 flag 而言，他们在两个并行的线程中被读写，出现了竞争。除此之外，即便我们忽略竞争读写，仍然可能受 CPU 的乱序执行，编译器对指令的重排的影响，导致 a = 5 发生在 flag = 1 之后。从而 b 可能输出 0。 68 7.5 原子操作与内存模型第 7 章并行与并发原子操作 std::mutex 可以解决进行隔离这是一组非常强的同步条件，换句话说当最终编译为 CPU 指令时会表现为非常多的指令（我们之后再来看如何实现一个简单的互斥锁）。这对于一个仅需原子级操作（没有中间态）的变量，似乎太苛刻了。关于同步条件的研究有着非常久远的历史，我们在这里不进行赘述。读者应该明白，现代 CPU 体系结构提供了 CPU 指令级的原子操作，因此在 C++11 中多线程下共享变量的读写这一问题上，还引入了

0 码力 | 83 页 | 2.42 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

分支预测成败对性能的影响排序为什么对有分支的版本影响那么大为什么需要流水线 • 为了高效， CPU 的内部其实是一个流水线 (pipeline) 。流水线的目的是能把原本串行的一系列指令并行化。为了理解为什么需要流水线，我们先反过来，假设没有流水线，会有什么坏处。 • 例如，右边你今天早上的任务清单。 • 请问你这些任务总共需要多少时间？任务时间占用资源洗脸钟嘛！可以，不过这是在你每次只做一件事的情况下，例如你烧开水时就站在旁边干瞪眼，什么也不做，其实完全可以在烧开水的同时洗脸刷牙呀！原始的 CPU 也是这样， ALU 在运算的时候指令解码单元就在旁边干瞪眼，要等 ALU 跑完写回寄存器来指令解码单元才开始继续工作，很低效。任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶刷牙 5 分钟嘴巴，手看比站 15 刷牙烧开水吃饭看比站拉粑粑 5 5 10 20 条件跳转指令 • 让不占用相同资源的任务同时进行，这也是 CPU 流水线的初衷。但理想是美好的，现实是骨感的，对于程序来说，指令不只是一个个简单的任务，有时候我们需要做判断，来决定要执行的具体任务，这就是分支，在汇编语言中体现为条件跳转指令。 • 例如我们这里给任务清单加一个，如果烧开水时被烫伤，则直接去医院的特殊任务。

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

免从外部内存读写的超高延迟。缓存的分级结构查看高速缓存大小： lscpu • 可以看到我们 x86 电脑的缓存结构分为三级。 • 一级缓存分为数据缓存和指令缓存，其中数据缓存有 32 KB ， 6 个物理核心每个都有一个，总共 192 KB 。而指令缓存的大小刚好和数据缓存一样也是 192 KB 。 • 二级缓存有 256 KB ， 6 个物理核心每个都有一个，总共 1.5 MB 。缓存行预取技术：吃着一碗饭的同时，先喊妈妈烧下一碗饭 • 其实，当程序顺序访问 a[0], a[1] 时， CPU 会智能地预测到你接下来可能会读取 a[2] ，于是会提前给缓存发送一个读取指令，让他读取 a[2] 、 a[3] 。缓存在后台默默读取数据的同时， CPU 自己在继续处理 a[0] 的数据。这样等 a[0], a[1] 处理完以后，缓存也刚好读取完 a[2] 了，从而申请起始地址对齐到页边界的一段内存，真正做到每个块内部不出现跨页现象。手动预取： _mm_prefetch • 对于不得不随机访问很小一块的情况，还可以通过 _mm_prefetch 指令手动预取一个缓存行。 • 这里第一个参数是要预取的地址（最好对齐到缓存行），第二个参数 _MM_HINT_T0 代表预取数据到一级缓存， _MM_HINT_T1 代表只取到二级缓存， _MM_HINT_T2

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

%rsi), %eax 相当于： eax = &*(rdi + rsi) 妙用本用于指针的指令，尽管此时 rdi 和 rsi 并不是指针整数加常数乘整数：都可以被优化成 leal 因为这种线性变换在地址索引中很常见，所以被 x86 做成了单独一个指令。这里尽管不是地址，但同样可以利用 lea 指令简化生成的代码大小。 eax = rdi + rsi * 8 指针访问对象：线性访问地址省流助手：如果你看到编译器生成的汇编里，有大量 ss 结尾的指令则说明矢量化失败；如果看到大多数都是 ps 结尾则说明矢量化成功。 xmm0 xmm1 xmm0 addss %xmm1, %xmm0 addps %xmm1, %xmm0 xmm0 xmm1 xmm0 为什么需要 SIMD ？单个指令处理四个数据 • 这种单个指令处理多个数据的技术称为 SIMD （ single-instruction 在一定条件下，编译器能够把一个处理标量 float 的代码，转换成一个利用 SIMD 指令的，处理矢量 float 的代码，从而增强你程序的吞吐能力！ • 通常认为利用同时处理 4 个 float 的 SIMD 指令可以加速 4 倍。但是如果你的算法不适合 SIMD ，则可能加速达不到 4 倍；也有因为 SIMD 让访问内存更有规律，节约了指令解码和指令缓存的压力等原因，出现加速超过 4 倍的情况。第 1 章：化简

0 码力 | 108 页 | 9.47 MB | 1 年前
3

共 201 条前往

页

Hidden Overhead of Function API GraphBLAS Building C++Matrix for Graph Algorithms 高性性能高性能并行编程优化课件 08 05 06 深入深入浅出MFC 现代教程高速上手 11 14 17 20 07 04

分类

语言

格式

Hidden Overhead of a Function API

GraphBLAS: Building a C++ Matrix API for Graph Algorithms

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

《深入浅出MFC》2/e

现代C++ 教程：高速上手C++11/14/17/20

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化