C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector之后容量实际上扩充到了 10 而不是刚好 7 ,为什么 ? • 因为标准库的设计者非常聪明,他料想到了你 resize(7) 以后可能还会来 个 resize(8) 甚至 resize(9) 之类的。为了减少重复分配的次数,他有一 个策略:当 resize 后的新尺寸变化较小时,则自动扩容至原尺寸的两倍 。 • 这里我们的原大小是 5 ,所以 resize(7) 会扩充容量到 10 ,但是尺寸为 7 resize(n) 的逻辑是扩容至 max(n, capacity * 2) 。 • size_t resize(size_t n); vector 容器: reserve 预留一定容量,避免之后重复分配 • 内存分配是需要一定时间的。如果我们程序员能预料到数组 最终的大小,可以用 reserve 函数预留一定的容量,这样之 后就不会出现容量不足而需要动态扩容影响性能了。例如这 里我们一开始预留了 vector 容器: insert 函数,重复插入多个相同的值 • insert 还有一个特殊的功能,就是他可以插入一个元素很多 遍!只需多指定一个参数来表示插入多少遍,语法如下: • a.insert( 插入位置 , 重复多少次 , 插入的值 ); • 你可能会担心,小彭老师刚刚不是说在头部 insert 是 O(n) 复杂度嘛?那如果再重复 n 次岂不是 O(n²) 复杂度了?不0 码力 | 90 页 | 4.93 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门:RAII 内存管理BV1h64y197Fd 自定义构造函数:无参数 自定义构造函数:无参数(使用初始化表达式) 为什么需要初始化表达式? 1. 假如类成员为 const 和引用 2. 假如类成员没有无参构造函数 3. 避免重复初始化,更高效 自定义构造函数:多个参数 自定义构造函数:单个参数 自定义构造函数:单个参数(陷阱) 自定义构造函数:单个参数(避免陷阱) 避免陷阱体现在哪里? • 加了 explicit 每增加一个属性都要全部改一次代码。 • 更加 fancy 的写法: 编译器默认生成的构造函数:初始化列表(妙用,处理函数的复杂类型参 数) • 还有,函数的参数,如果是很复杂的类型 ,你不想把类型名重复写一遍,也可以利 用 {} 初始化列表来简化: • zeno 的节点定义函数 defNodeClass 中就大量用到了这种简 化。 有自定义构造函数时仍想用默认构造函数: = default • 这个错误怎么办啊!” • 这是因为 unique_ptr 删除了拷贝构造函数导致的。 为什么他要删除拷贝构造函数? • 原因还是三五法则,如果拷贝了指针,那么就会出现 之前 Vector 那样重复释放( double free )的问题。 解决方案 1 :获取原始指针( C * 这种类型的指针) • 解决这个问题需要分两种情况讨论。 • 第一种是,你的 func() 实际上并不需要 “夺走”资源的占有权(0 码力 | 96 页 | 16.28 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化也可以使用小彭老师封装好的帮手类 重复分配效率低 • 即使第二次分配的是同一段差不多大小的内存,也是会产生缺页中断,花费分配时间的。 • glibc 的 malloc 实现,不会重复利用现有的内存。 改用 tbbmalloc • tbbmalloc 分配的效率比 glibc 的 malloc 效率稍微高一些,但还是不能帮你自动池化的。 • 还是需要你手动把可以重复利用的 vector 重用,或者自己做一个内存池化的 临时创建的数组,每次调用 func 都会重 复内存分配一次(进入一次内核态),非 常浪费时间。 解决:手动池化 • 声明为 static 变量,这样第二次进入 func 的时候还是 同一个数组,不需要重复分配内存。 thread_local 表示 如有多个线程,每个线程保留一个 tmp 对象的副本, 防止多线程调用 func 出错。 • 返回时(或者进入时)调用 tmp.clear() 清除已有数据。 并调 用其成员的解构函数,而不会实际释放内存( free )。 • 因此第二次进入的时候,如果 n 不超过上一次的大小 ,就还是用的第一次分配的内存,避免了重新分配的开 销。对 func 需要被重复调用的情况很实用。 第 6 章:多维数组 C 语言静态数组 • float a[n]; 可以在栈上分配有 n 个元素的一维数组。 • 通过 a[i] 访问第 i 个元素。 • float a[n][m];0 码力 | 147 页 | 18.88 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶:模板元编程CMake 3.12 及以上(跨平台作业) Git 2.x (作业上传到 GitHub ) CUDA Toolkit 10.0 以上( GPU 专题) 为什么需要模板函数( template ) • 避免重复写代码。 • 比如,利用重载实现“将一个数乘以 2” 这个 功能,需要: 为什么面向对象在 HPC 不如函数式和元编程香了? 这个例子要是按传统的面向对象思想,可能是这样: 令 Int, Float ,其中 multiply(int) 作为虚函数。然后定义: Numeric *twice(Numeric *t) { return t->multiply(2); } 且不说这样的性能问题,你忍得住寂寞去重复定义好 几个,然后每个运算符都要声明一个纯虚函数吗? 而且, Float 的乘法应该是 multiply(float) ,你也去 定义好几个重载吗?定义为 multiply(Numeric *) 的话 以省略该模板参数。自动根据调用者的参 数判断。 模板函数:特化的重载 • 有时候,一个统一的实现(比如 t * 2 )满 足不了某些特殊情况。比如 std::string 就 不能用乘法来重复,这时候我们需要用 t + t 来替代,怎么办呢? • 没关系,只需添加一个 twice(std::string) 即可,他会自动和已有的模板 twice(T) 之间相互重载。 0 码力 | 82 页 | 12.15 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器vector 的区别 • 都是能存储一连串数据的容器 。 • 区别 1 : set 会自动给其中的 元素从小到大排序,而 vector 会保持插入时的顺序。 • 区别 2 : set 会把重复的元素 去除,只保留一个,即去重。 • 区别 3 : vector 中的元素在内 存中是连续的,可以高效地按 索引随机访问, set 则不行。 • 区别 4 : set 中的元素可以高 效地按值查找,而 • 还有一种更直观的写法: • set.count(x) != 0 • count 返回的是一个 int 类型,表示 集合中相等元素的个数。 • 等等,不是说 set 具有去重的功能,不会 有重复的元素吗?为什么标准库让 count 计算个数而不是直接返回 bool… 因为他们 考虑到接口的泛用性,毕竟 multiset 就不 去重。对于能去重的 set , count 只可能 返回 0 或 数。 • 个数为 0 就说明集合中没有该元素,删除失败 。 • 个数为 1 就说明集合中存在该元素,删除成功 。 • 这里的“个数”和 count 的情况很像,因为 set 中不会有重复的元素,所以 erase 只可能返回 0 或 1 ,表示是否删除成功。 • size_t erase(int const &val); 从 set 中删除指定元素 • erase 还支持迭代器作为参数。0 码力 | 83 页 | 10.23 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起也重新编译一遍。 2. 能够自动并行地发起对 hello.cpp 和 main.cpp 的编译,加快编译速度( make -j )。 3. 用通配符批量生成构建规则,避免针对每个 .cpp 和 .o 重复写 g++ 命令( %.o: %.cpp )。 • 但坏处也很明显: 1. make 在 Unix 类系统上是通用的,但在 Windows 则不然。 2. 需要准确地指明每个项目之间的依赖关系,有头文件时特别头疼。 递归地使用头文件(续) • 但是这样造成一个问题,就是如果多个头文件都引用了 MyClass.h ,那么 MyClass 会被 重复定义两遍: • 解决方案:在头文件前面加上一行: #pragma once • 这样当预处理器第二次读到同一个文件时,就会自动跳过 • 通常头文件都不想被重复导入,因此建议在每个头文件前加上这句话 头文件进阶 - 递归地使用头文件(再续) (自动跳过) CMake 中的子模块 只需要把他们的 include 目录或头文件下载下来,然后 include_directories(spdlog/include) 即 可。 • 缺点:函数直接实现在头文件里,没有提前编译,从而需要重复编译同样内容,编译时间长。 glm - 使用这个神奇的数学库 第三方库 - 作为子模块引入 • 第二友好的方式则是作为 CMake 子模块引入,也就是通过 add_subdirectory 。0 码力 | 32 页 | 11.40 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化相当于生成了两个版本,一个乘法,一个加法。 优化前 : 优化后 : 这样就可以自 由地使用 SIMD 指令啦 循环中的不变量:挪到外面来 dt * dt 和当前 i 无关,因此可以移到 循环体外,提前计算,避免重复计算 。 提前算好 dt * dt 优化前: 优化后: 挪到外面来:优化失败 然而只要去掉 (dt * dt) 的括号就会优化失败: 因为乘法是左结合的,就相当于 (b[i] * dt) * #pragma GCC unroll 4 表示把循环体展开为 4 个 相当于: 对小的循环体进行 unroll 可能是 划算的,但最好不要 unroll 大的 循环体,否则会造成指令缓存的压 力反而变慢! 重复了四次 不建议手动这样写 ,会妨碍编译器的 SIMD 矢量化。 第 6 章:结构体 两个 float :对齐到 8 字节 成功 SIMD 矢量化! 三个 float :对齐到 12 字节 数学优化:除法变乘法 相当于变成了 a * 0.5f 编译器放弃的优化:分离公共除数 为什么放弃优化?因为编译器害怕 b = 0 。 解决方案 1 :手动优化 乘法比除法更快!提前计算好 b 的 倒数避免重复求除法。 解决方案 2 : -ffast-math -ffast-math 选项让 GCC 更大胆地尝试浮点 运算的优化,有时能带来 2 倍左右的提升。 作为代价,他对 NaN 和无穷大的处理,可0 码力 | 108 页 | 9.47 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践 m_catFood 。所以 这里的解构函数也是多态的,他根据类型的不同 调用不同派生类的解构函数。 多态用于设计模式之“模板模式” • 这样之后如果有一个任务是要基于 eatFood 做文章,比如要重复 eatFood 两遍。 • 就可以封装到一个函数 eatTwice 里,这个函数只需接受他们共同的基类 IObject 作为参数,然后调 用 eatFood 这个虚函数来做事(而不是直接操作具体的猫和狗本身)。 • 如右图。 • getMyClassInstance() 会在第一次调用时创 建 MyClass 对象,并返回指向他的引用。 • 根据 C++ 函数静态变量初始化的规则,之后 的调用不会再重复创建。 • 并且 C++11 也保证了不会多线程的危险, 不需要手动写 if 去判断是否已经初始化过, 非常方便! 函数静态初始化和全局静态初始化的配合 • 如果在全局静态初始化( before_main0 码力 | 54 页 | 3.94 MB | 1 年前3
Zadig 面向开发者的云原生 DevOps 平台部署 | 测试 | 发布 代码三: 代码编写 | 构建 | 部署 | 测试 | 发布 特点: ● 重复流程自动化 ● 边开发、边验证 ● 服务全生命周期而非只关注代码 ● 每天多次提交提早验证 Zadig 采用「云原生产品级交付」设计理念 数字化产研协同 • 环境 - 统一开发者协作平面 Jenkins 流水线设计的, Jenkins 的部署与数据中心一一对应。由于路特斯使用的是混合云,且数据中心遍布海外,导 致 Jenkins 数量庞大,随着业务扩张,早期架构难以适应快速变化,大量重复的事务性工作使得运维的人力捉襟见肘。 Zadig 的引入助力解决了这些挑战,推动了研发交付的数字化转型。 选择 Zadig 实现出海跨团队协作、跨云 / 跨地域自动化部署 背景需求 路特斯迎来了技术选型的决0 码力 | 59 页 | 81.43 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅行一次的结果可能不准确,最好是多次运 行取平均值才行。 • 因此可以利用谷歌提供的这个框架。 • 只需将你要测试的代码放在他的 • for (auto _: bm) • 里面即可。他会自动决定要重复多少次, 保证结果是准确的,同时不浪费太多时间 。 运行结果 刚才的 BENCHMARK_MAIN 自动生成了一个 main 函数 ,从而生成一个可执行文件供你运行。运行后会得到测试 的结果打印在终端上。 做完自己队列里全部的工 作时,会从另一个工作中线程 t2 的队列 里取出任务,以免 t1 闲置浪费时间。 • 因此内部 for 循环有可能“窃取”到另一个 外部 for 循环的任务,从而导致 mutex 被重复上锁。 解决 1 :用标准库的递归锁 std::recursive_mutex 解决 2 :创建另一个任务域,这样不同域之间就不会窃取工作 解决 3 :同一个任务域,但用 isolate 隔离,禁止其内部的工作被窃取0 码力 | 116 页 | 15.85 MB | 1 年前3
共 18 条
- 1
- 2













