双11 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

检测到编译器不支持 C++17 时不报错，而是默默调低到 C++14 给你用；为 ON 则发现不支持报错，更安全。 https://crascit.com/2015/03/28/enabling-cxx11-in-cmake/ 设置 C++ 标准： CMAKE_CXX_STANDARD 变量 • CMAKE_CXX_EXTENSIONS 也是 BOOL 类型，默认为 ON 。设为 ON 表示启用 CMake 可以在 project 函数里对编译器进行一些检测，看看他能不能支持 C++17 的特性。 https://crascit.com/2015/03/28/enabling-cxx11-in-cmake/ 常见误区：小彭老师，我手动添加 -std=c++17 行不行？ • 请勿直接修改 CMAKE_CXX_FLAGS 来添加 -std=c++17 （你在百度 CSDN 学到的用此外 CMake 已经自动根据 CMAKE_CXX_STANDARD 的默认值 11 添加 -std=c++11 选项了，你再添加个 -std=c++17 选项不就冲突了吗？所以请用 CMAKE_CXX_STANDARD 。 https://crascit.com/2015/03/28/enabling-cxx11-in-cmake/ project 的初始化： VERSION 字段 •

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++11 开始的多线程编程 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现） CUDA Toolkit 10.0 以上（ GPU 专题）温馨提示： 1. 会用到第二讲（ RAII 与智能指针）里的知识 2. 课件中一部分代码是基于 C++17 的个人认为， C++11 中很多特性，其实可以看做是为了支持多线程而顺带引入的……如 chrono 、移动、 lambda 、 RAII…… 第 0 章：时间 C 语言如何处理时间： time.h • long

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 6GHz • 一个由双核组成的 3GHz 的 CPU 实际上提供了 6GHz 的处理能力，是吗？ • 显然不是。甚至在两个处理器上同时运行两个线程也不见得可以获得两倍的性能。相似的，大多数多线程的应用不会比双核处理器的两倍快。他们应该比单核处理器运行的快，但是性能毕竟不是线性增长。 • 为什么无法做到呢？首先，为了保证缓存一致性以及其他握手协议需要运行时间开销。在今天，双核或者四核机器在个处理器核心。那么就会先执行 1,2,3,4 号线程，一段时间后自动切换到 5,6,7,8 线程。当一个线程退出时候，系统就不会再调度到他上去了，从而保证每个核心始终有事可做。 1 6 11 16 2 7 12 8 3 4 9 14 10 15 13 5 解决 2 ：线程数量不变，但是用一个队列分发和认领任务 • 但是线程数量太多会造成调度的 overhead

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

读取：如果不存在，则读到 0 写入：如果不存在，则创建该表项用 unordered_map 来存储 map 基于红黑树，会按照键值排序，需要键值具有 operator< 重载，复杂度 O(logn) C++11 新增的 unordered_map 基于哈希表，不保证顺序但更高效，需要键值能被哈希，复杂度 O(1) 用 unordered_map 按 16x16 分块存储分块能减少 unordered_map 下面这个例子中的稀疏数据结构，用这种语言可以表示为 hash().pointer(11).dense(8) 。封装起来，方便多层解耦封装起来，方便多层解耦封装起来，方便多层解耦封装起来，方便多层解耦封装起来，方便多层解耦 • 这样就封装好了，通过模板的方式实现了自定义的稀疏数据结构： • hash().pointer(11).dense(8) 开源的体素处理库： OpenVDB • OpenVDB 包括他的 data() 也是不对的。第 6 章：量化浮点类型使用 double ：每个占据 8 字节 • 很多 CFD 玩家喜欢用 double 表示浮点数。 • 然而 double 是双精度浮点数，会占据 8 字节！虽然精度更高，但是在不需要精度的图形学应用中，就非常浪费内存带宽。使用 float ：每个占据 4 字节 • 可以用单精度的 float ，只占据 4 字节。

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

a[i + 1] + a[i - 1]; // 假装是 jacobi • swap(a, b); // 交换双缓冲 • for (i=0...n) b[i] = a[i + 1] + a[i - 1]; // 假装是 jacobi • swap(a, b); // 交换双缓冲 • // 不断反复 ... • 但是这样每个循环体内只有 1 次加法，明显就是我们所说的 mem-bound larger), speedups by using a Morton ordering compared to a naïve implementation can result in up to 11 times the performance on the Intel Xeon Phi coprocessor. When using multiple threads (which the Intel

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

：最接近的那个点作为值（右图）烟雾仿真系统：封装 • 我们统一通过 unique_ptr 来管理对象，这样尽管 CudaSurface 对象是不可移动的，我们仍可以通过移动其指针的方式来实现双缓冲（ std::swap ）。对流部分对流部分：计算对流后位置（ RK3 ） • 这里我参考了 Taichi 官方案例中的 stable_fluid.py 代码（二维定常流仿真），主要由 blockDim 为 8x8x8=512 。 • 如果在 resample_kernel 需要读取 clr ，然后再写入 clr ，并且读写是不同的坐标位置。 • 因此对 clr 和 vel 使用了双缓冲，写入 clrNext 的同时读取 clr 没有冲突，写入完毕后对调 clrNext 和 clr 。投影部分投影部分 • 我们要模拟的流体是不可压缩的，因此有着无散度的特点： div v 投影部分：速度减去压强的梯度投影部分：初步实现 • 现在调用这些内核，让 jacobi 迭代 400 次，看看效果。 • 当然， jacobi 迭代因为需要写入 pre 的同时读取 pre ，所以也要用双缓冲。投影部分：计算未消除的散度为了评估效果的好坏，额外加一个计算散度方差的核函数，看看是不是无散度（不可压缩流）了。多重网格法投影部分：多重网格实现投影部分：红黑高斯投影部分：计算残差

0 码力 | 58 页 | 14.90 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现是用于保存返回值的寄存器。通用寄存器： 64 位时代 • 64 位 x86 架构中的通用寄存器有： • rax, rcx, rdx, rbx, rsi, rdi, rsp, rbp, r8, r9, r10, r11, ..., r15 • 其中 r8 到 r15 是 64 位 x86 新增的寄存器，给了汇编程序员更大的空间，降低了编译器处理寄存器翻车（ register spill ）的压力。 • 因此 xmm 的最低位进行运算；也可以是 p 表示矢量 (packed) ，一次对 xmm 中所有位进行运算。 3. 第二个 s 表示单精度浮点数 (single) ，即 float 类型；也可以是 d 表示双精度浮点数 (double) ，即 double 类型。 • addss ：一个 float 加法。 • addsd ：一个 double 加法。 • addps ：四个 float 加法。 •

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现语言近代： C++98 引入 STL 容器库近现代： C++11 引入了 {} 初始化表达式近现代： C++11 引入了 range-based for-loop 如果想使用 for_each 这个算法模板呢？我知道可以用 accumulate 啦！但是为了引出 lambda 表达式…… 近现代： C++11 引入了 lambda 表达式现代： C++14 的 lambda • 等价，都会零初始化。但是你不写那个空括号就会变成内存中随机的值。 • 再比如： std::cout << int{}; 会打印出 0 编译器默认生成的构造函数：初始化列表（感谢 C++11 ） • 当一个类（和他的基类）没有定义任何构造函数，这时编译器会自动生成一个参数个数和成员一样的构造函数。 • 他会将 {} 内的内容，会按顺序赋值给对象的每一个成员。 • 目的是为了方便程序员不必手写冗长的构造函

0 码力 | 96 页 | 16.28 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

集成环境：支持开发者 Remote debug 工作流：效率和性能、开发者体验提升贡献者流程建立开放社区搭建 2021 年 5 月 2021 年 7 月 2021 年 9 月 2021 年 11 月 2021 年 12 月 1 个月功能改造 90% 功能实现开源技术社区雏形搭建 2022 年 3 月生态伙伴工具 + Zadig Zadig 企业交付案例场景深化 i g 方案二： G i t l a b + Z a d i g 非核心服务：采用单分支模型 m a s t e r 发版。核心服务：采用双分支模型： m a s t e r 发版测试环境和 o n l i n e 发版生产环境。字节跳动 - 飞书场景一：主干开发主干发布工具链：飞书 90% 以上全面使用：数字化转型助力每日上百万“如约”客户出行关注 Z a d i g 社区做硬科技和产业数字化的软件工程推手成立于 2018 年 11 月 3 日， KodeRover 筑栈（上海）信息技术有限公司是国内在云原生 DevOps 领域的领军企业。旗舰产品云原生 DevOps 软件工程平台 Zadig 正在成为各行各业领先企业数字化软件研

0 码力 | 59 页 | 81.43 MB | 1 年前
3
Borsh 安全高效的二进制序列化

Object Representation Serializer for Hashing • 字节级别确定性 • 执行速度快 Borsh • 轻量级 • 每一个对象与其二进制表示之间都存在一个双射映射 • 不同的对象的二进制表示一定不同 • 便于基于二进制表示进行 Hash 字节级别确定性 • 在 Rust 中， borsh 并没有使用 serde • 全部逻辑原生实现 • 序列化、反序列化速度大幅领先其他解决方案

0 码力 | 21 页 | 3.35 MB | 1 年前
3

共 37 条前往

页

C++高性性能高性能并行编程优化课件 11 05 06 10 07 09 04 02 Zadig 面向开发开发者原生 DevOps 平台 Rust Borsh

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

Zadig 面向开发者的云原生 DevOps 平台

Borsh 安全高效的二进制序列化