相对性判断 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

categories[key].push_back(str); } • 则 categories 最后为： • {‘h’: {“happy”, “hello”}, ‘w’: {“world”}}; 第二章：判断与删除不鞋习的小彭友就会进到这儿 ! 不鞋习的小彭友就会进到这儿 ! 找不到时，自动采用默认值 • 要求：当 m 中有 “ key” 时返回 key 对应的值，否则返回指定的默认值 “ default” 覆盖旧值创建并写入值 m.at(key) = val 覆盖旧值抛出 out_of_range 异常判断 if (m.count(key)) 返回 1 返回 0 删除 m.erase(key) 删除这个值默默放弃小彭老师四定律：读取，要用 at 。写入，要用 [] 。判断存在，用 count 。删除，用 erase 。这四个已经够用了。 map 常用函数不同情况下的行为分析 m.insert_or_assign(key, val) 覆盖旧值创建并写入值（更高效， C++17 新增） m.at(key) = val 覆盖旧值抛出 out_of_range 异常判断 if (m.count(key)) 返回 1 返回 0 删除 m.erase(key) 删除这个值默默放弃对学有余力的同学，再扩充为小彭老师六定律：安全的读取，要用 val = m.at(key)

0 码力 | 90 页 | 8.76 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

Release ，指定的时候保持用户指定的值不变呢。就是说 CMake 默认情况下 CMAKE_BUILD_TYPE 是一个空字符串。因此这里通过 if (NOT CMAKE_BUILD_TYPE) 判断是否为空，如果空则自动设为 Release 模式。大多数 CMakeLists.txt 的开头都会有这样三行，为的是让默认的构建类型为发布模式（高度优化）而不是默认的调试模式（不会优化）。我们稍后会详细捋一遍类似于时定义 WITH_TBB 宏，稍后 .cpp 里就可以根据这个判断。如果找不到 TBB 可以 fallback 到保守的实现。这样在 .cpp 里可以判断 WITH_TBB 宏，找不到 TBB 时退化到串行 for 循环也可以用 TARGET 判断是否存在 TBB::tbb 这个伪对象，实现同样效果也可以复合 if 的各种判断语句，例如 NOT TARGET TBB::tbb AND TARGET s.7.html#genex:PLATFORM_ID 判断当前用的是哪一款 C++ 编译器 https://cmake.org/cmake/help/latest/variable/CMAKE_LANG_COMPILER_ID.html#variable:CMAKE_%3CLANG%3E_COMPILER_ID 也可以用生成器表达式判断编译器 https://cmake.org/cmake

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

5 10 20 条件跳转指令 • 让不占用相同资源的任务同时进行，这也是 CPU 流水线的初衷。但理想是美好的，现实是骨感的，对于程序来说，指令不只是一个个简单的任务，有时候我们需要做判断，来决定要执行的具体任务，这就是分支，在汇编语言中体现为条件跳转指令。 • 例如我们这里给任务清单加一个，如果烧开水时被烫伤，则直接去医院的特殊任务。 • 特点：一旦触发去医院这个支线，则后面的（无条件）跳转到结束去医院 10 分钟全身结束跳转指令对流水线效率的影响 • 然而跳转指令的存在使得流水线的并行变得很困难了。例如我们本来可以烧开水和刷牙同时进行节省时间的，但是因为烧好开水以后还要判断“是否烫伤”才能决定接下来是正常刷牙还是去医院。这意味着流水线不得不在跳转指令前后发生断层（俗称流水线里的气泡）。不得不等待烧开水这个任务结束，才能确定接下来要执行哪个剧本：正常继续早餐，还是说要前往医院。很多同学通常都会用 switch 来处理这种大量判断的情况。可能你误以为 switch 比一堆 if-else 更高效。但是实际上在编译器看来是一样的，不管你 if-else 还是 switch ，他都会想方设法帮你优化成查表法。 • 所以不用纠结性能，你觉得哪种写起来可读性强，容易维护，你就怎么写。无分支优化的方法：查表法 • 如果每个判断的值是连续的，这种情况一般会建立一个表（数组）。

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

• isupper(c) 判断是否为大写字母（‘ A’ <= c && c <= ‘Z’ ）。 • islower(c) 判断是否为小写字母（‘ a’ <= c && c <= ‘z’ ）。 • isalpha(c) 判断是否为字母（包括大写和小写）。 • isdigit(c) 判断是否为数字（‘ 0’ <= c && c <= ‘9’ ）。 • isalnum(c) 判断是否为字母或数字（包括字母和数字）。判断是否为字母或数字（包括字母和数字）。 • isxdigit(c) 判断是否为十六进制数字（ 0~9 或 a-f 或 A-F ）。 • isspace(c) 判断是否为等价于空格的字符（‘ ’ 或 ‘ \t’ 或 ‘ \n’ 或 ‘ \v’ 或 ‘ \r’ ）。 • iscntrl(c) 判断是否为控制字符（ 0 <= c && c <= 31 或 c == 127 ）。 • toupper(c) 把小写字母转换为大写字母，如果不是则原封不动返回。 char 魔改成无符号的…… • 顺便一提， C++ 标准保证 char ， signed char ， unsigned char 是三个完全不同的类型， std::is_same_v 分别判断他们总会得到 false ，无论 x86 还是 arm 。 • 但是奇葩的 C 语言却规定 short ， int ， long ， long long 必须是有符号的 (int = signed

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

可以合并为一个 int64 四个 int32 可以合并为一个 __m128 八个 int32 可以合并为一个 __m256 让编译器自动检测当前硬件支持的指令集 -march=native 让编译器自动判断当前硬件支持的指令。老师的电脑支持 AVX 指令集，所以他用了。不过注意这样编译出的程序，可能放到别人不支持 AVX 的电脑上没法运行。数组清零：自动调用标准库的 memset memcpy a, b 指针的差是否超过 1024 来判断是否有重叠现象。 1. 如果没有重叠，则跳转到 SIMD 版本高效运行。 2. 如果重叠，则跳转到标量版本低效运行，但至少不会错。 SIMD 版标量版循环中的矢量化：解决指针别名所以，让我们加上 __restrict 关键字，打消编译器的顾虑！这下只需要生成一个 SIMD 版本了，没有了运行时判断重叠的焦虑。 SIMD 版循环中的矢量化： a *= b ，否则执行 a += b 。然而有 if 分支的循环体是难以 SIMD 矢量化的。循环中的 if 语句：挪到外面来（续）编译器看到 is_mul 是一个常量，于是把 if 分支判断挪到了 for 外面来。相当于生成了两个版本，一个乘法，一个加法。优化前：优化后：这样就可以自由地使用 SIMD 指令啦循环中的不变量：挪到外面来 dt * dt 和当前

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

那这样需要手动写，用起来还不如重载方便了？ • 别担心， C++ 规定： • 当模板类型参数 T 作为函数参数时，则可以省略该模板参数。自动根据调用者的参数判断。模板函数：特化的重载 • 有时候，一个统一的实现（比如 t * 2 ）满足不了某些特殊情况。比如 std::string 就不能用乘法来重复，这时候我们需要用 t + t 来替代，怎么办呢？ • 在右边这个案例中，我们声明了一个 sumto 函数，作用是求出从 1 到 n 所有数字的和。 • 用一个 debug 参数控制是否输出调试信息。 • 但是这样 debug 是运行时判断，这样即使是 debug 为 false 也会浪费 CPU 时间。模板的应用：编译期优化案例（续） • 因此可以把 debug 改成模板参数，这样就是编译期常量。编译器会生成两份函数是等价的。 variant ：判断当前是哪个类型用 std::holds_alternative • 可以用 std::holds_alternative 判断当前里面存储的是不是 int 。 variant ：判断当前是哪个类型用 v.index() • 除了这个之外，还可以用成员方法 index() 获取当前是参数列表中的第几个类型。这样也可以实现判断。 variant ：批量匹配

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

码比较），如果相等则继续比较下一个，不相等则直接以这个比较的结果返回。如果比到末尾都相等且字符串长度一样，则视为相等。警告：千万别用 set 做字符串集合。这样只会按字符串指针的地址去判断相等，而不是所指向字符串的内容。 set 的排序：自定义排序函数 • set 作为模板类，其实有两个模板参数： set • 第一个 T 是容器内元素的类型，例如首先搞懂 set 内部是怎么确定两个元素 a 和 b 相等的： • !(a < b) && !(b < a) • 也就是说他 set 内部没有用到 == 运算符，而是调用了两次比较函子来判断的。逻辑是： • 若 a 不小于 b 且 b 不小于 a ，则视为 a 等于 b ，所以这就是为什么 set 只需要一个比较函子，不需要相等函子的原因。 set 的排序：自定义排序函数 std::next 函数，他的内部实现相当于这样： • 没错，他会自动判断迭代器是否支持 + 运算，如果不支持，会改为比较低效的调用 n 次 ++ 。 std::advance 等价于 += • 刚刚的 std::next 会返回自增后迭代器。 • 还有 std::advance 会就地自增作为引用传入的迭代器，他同样会判断是否支持 += 来决定要采用哪一种实现。 • 区别： advance

0 码力 | 83 页 | 10.23 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

：用 std::try_to_lock 做参数 • 和无参数相比，他会调用 mtx1.try_lock() 而不是 mtx1.lock() 。之后，可以用 grd.owns_lock() 判断是否上锁成功。 std::unique_lock ：用 std::adopt_lock 做参数 • 如果当前 mutex 已经上锁了，但是之后仍然希望用 RAII 思想在解构时候自动调用无非是调用其构造参数名为 lock() 的成员函数，所以 std::unique_lock 也可以作为 std::lock_guard 的构造参数！ • 这种只要具有某些指定名字的成员函数，就判断一个类是否满足某些功能的思想，在 Python 称为鸭子类型，而 C++ 称为 concept （概念）。比起虚函数和动态多态的接口抽象， concept 使实现和接口更加解耦合且没有性能损失。程安全的，调用本函数之前需要保证某 mutex 已经上锁。” 解决 2 ：改用 std::recursive_mutex • 如果实在不能改的话，可以用 std::recursive_mutex 。他会自动判断是不是同一个线程 lock() 了多次同一个锁，如果是则让计数器加 1 ，之后 unlock() 会让计数器减 1 ，减到 0 时才真正解锁。但是相比普通的 std::mutex 有一定性能损失。

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

CudaSurfaceAccessor ，不管理资源，仅仅是指向资源的一个弱引用，可以随意拷贝。并把读写访问的方法（ surf3Dread ）定义在访问者类。 CUDA 表面对象：封装 • 此外，表面对象还支持自动判断 x,y,z 坐标是否越界， surf3Dread/write 的最后一个参数，用于指定出现越界时要采取的行动： • cudaBoundaryModeTrap ：一旦越界就奔溃。 • c n+100 钳制到 n-1 。 • cudaBoundaryModeZero ：对于读来说越界会读取到 0 ；对于写来说越界会放弃写入，不修改数组中的任何值。 • 表面对象保障了高效的访存，并且自动判断越界，体现了 GPU 作为图形学专业硬件的能力。 CUDA 纹理对象：封装 • 表面对象访问数组是可读可写的。纹理对象也可以访问数组，不过是只读的。好处是他可以通过浮点坐标来访问，且提供了线性滤波的能力。导出 VDB ：分离实现 CMake ：使用 CUDA 编译器，链接 OpenVDB 在 Blender 中查看导出的结果边界条件边界条件：初始化边界条件：添加判断边界的版本边界条件：仅在第一层额外判断边界条件进一步改进 VDB 导出：支持导出多个网格，并指定名称进一步改进 VDB 导出： P-IMPL 模式进一步改进 VDB 导出： F-IMPL 模式 Blender

0 码力 | 58 页 | 14.90 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

指令码。最后再链接成同一个文件，看起来好像只编译了一次一样，实际上你的代码会被预处理很多次。 • 他在 GPU 编译模式下会定义 __CUDA_ARCH__ 这个宏，利用 #ifdef 判断该宏是否定义，就可以判断当前是否处于 GPU 模式，从而实现一个函数针对 GPU 和 CPU 生成两份源码级不同的代码。 __CUDA_ARCH__ 是个版本号 • 其实 __CUDA_ARCH__ nthreads - 1) / nthreads • 例如： (7 + 3) / 4 = 2 ， (8 + 3 / 4) = 2 。 • 由于向上取整，这样会多出来一些线程，因此要在 kernel 内判断当前 i 是否超过了 n ，如果超过就要提前退出，防止越界。网格跨步循环：应用于线程和板块一起上的情况 • 网格跨步循环实际上本来是这样，利用扁平化的线程数量和线程编号实现动态大小。可以通过给 allocator 添加 construct 成员函数，来魔改 vector 对元素的构造。默认情况下他可以有任意多个参数，而如果没有参数则说明是无参构造函数。 • 因此我们只需要判断是不是有参数，然后是不是传统的 C 语言类型（ plain-old-data ），如果是，则跳过其无参构造，从而避免在 CPU 上低效的零初始化。进一步：核函数可以是一个模板函数 • 刚刚说过

0 码力 | 142 页 | 13.52 MB | 1 年前
3

共 20 条前往

页

C++高性性能高性能并行编程优化课件 17 11 15 04 03 14 05 09 08

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程