run()方法 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

-DBUILD_SHARED_LIBS:BOOL=ON 来让他全部生成为动态库。稍后会详解命令行传递变量的规则。小技巧：设定一个变量的默认值要让 BUILD_SHARED_LIBS 默认为 ON ，可以用下图这个方法：如果该变量没有定义，则设为 ON ，否则保持用户指定的值不变。这样当用户没有指定 BUILD_SHARED_LIBS 这个变量时，会默认变成 ON 。也就是说除非用户指定了 -DBUILD C:\Qt\Qt5.14.2 ，则你去找找这个目录： • C:\Qt\Qt5.14.2\msvc2019_64\lib\cmake\ • 你会看到他里面有个 Qt5Config.cmake 对吧。现在，有四种方法让 CMake 找得到他。 • 第一种是设置 CMAKE_MODULE_PATH 变量，添加一下包含 Qt5Config.cmake 这个文件的目录路径 C:\Qt\Qt5.14.2\msvc2019_64\lib\cmake ke ，当然刚刚说了尽管你是 Windows 还是要把 \ 全部换成 / ，因为 CMake 是“亲 Unix” 的构建系统。 • 是的，学个编程跟隔壁史地政一样，有地缘因素在里边…… 更好的方法：设置 < 包名 >_DIR 变量指向 < 包名 >Config.cmake 所在位置 • 第二种是设置 Qt5_DIR 这个变量为 C:\Qt\Qt5.14.2\msvc2019_64\lib\cmake

0 码力 | 166 页 | 6.54 MB | 1 年前
3
Rust 异步并发框架在移动端的应用 - 陈明煜

Thread Thread task Global queue task New task Global queue New task take & run take & run Worker take & run Steal & run 两种接口拥有两套割裂的调度模式和线程池华为 Ylong 异步并发框架 Ylong Runtime 并发框架华为 Rust 异步并发框架，近期计划在时间等数据）进行线程池动态扩缩容。  任务窃取 Fusion of IO/CPU intensive 结构化并发 Structured Concurrency 核心在于通过一种父子结构化的方法实现并发程序，用具有明确入口点和出口点的控制流结构来封装并发任务（可以是线程也可以是协程）的执行，确保所有派生任务在出口之前完成。 Structured concurrency 结构化并发带来的好处：

0 码力 | 25 页 | 1.64 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

图表比较：分支 vs 无分支分支无分支 0 0.01 0.02 0.03 耗时（越低越好）乱序有序 • 传统的分支方法实现的 uppercase ，对于排序过的数据明显比乱序时高效。 • 无分支的方法对于乱序和有序的数据一样高效，性能吊打了传统的分支方法。 • 对于传统分支的做法，为什么排序了的更高效？既然无分支更高效，我要怎样优化才能让我的程序变成无分支的呢？那就来大于（无符号） above e 等于 equal ne 不等于 not equal http://unixwiz.net/techtips/x86-jumps.html 手动进行无分支优化的方法无分支优化：从汇编角度分析 • 发生了什么？让我们把源码和汇编逐个对应。 • x 是第一个参数（通过 edi 传入，被存入 rbp 指向的堆栈） • 比较 x 和 0 的大小（ cmp • 可以被优化成： • a + (cond) * (b - a) // 方法 1 • 或者更满足“对称强迫症”的： • (cond) * a + !(cond) * b // 方法 2 • 还有一种“摆烂”的做法： • (cond ? a : b) // 方法 3 • 三目运算符通常会变成和 if-else 一样的分支，同样会生成条件跳转指令，理应一样

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

at 。 • 那么他们两个又有什么区别呢？很多新手都分不清他俩，可能只认识 [] 。读取 map 元素 • map m; • 读取 map 中指定键值的元素有两种方法。 • val = m[“key”]; // 读取键值为 “ key” 的元素，如果不存在，那就创建 “ key” 元素 • val = m.at(“key”); 的读取这里，严重影响他的调试效率（ javascript 的 undefined 直呼内行）。写入 map 元素 • map m; • 写入 map 中指定键值的元素有两种方法。 • m[“key”] = val; // 写入键值为 “ key” 的元素，如果不存在，那就创建 “ key” 元素 • m.at(“key”) = val; 的特性，由于调用者是 = val 赋值，所以初始化也没用了，反正马上会写入 val 。浅谈这种精分设计的原因 • 总结，要符合你熟悉的 Python 的 [] 行为，在 C++ 中要根据不同情况选择不同的方法访问： • 读取用 at() 写入用 [] • 很多同学会困惑，为什么要设计两套， C++ 他爸是精神分裂症吗？ • 恰恰相反， C++ 是中两个函数不论读写都一视同仁： at

0 码力 | 90 页 | 8.76 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

语言的整数除法 n / nthreads ，他是向下取整的，比如 7 / 4 = 1 。 • 比如 n 为 65535 ，那么最后 127 个元素是没有赋值的。解决边角料难题 • 解决方法就是：采用向上取整的除法。 • 可是 C 语言好像没有向上整除的除法这个运算符？没关系，用这个式子即可： • (n + nthreads - 1) / nthreads • 例如： (7 + ，也不会漏掉几个元素。 • 这样一个 for 循环非常符合 CPU 上常见的 parallel for 的习惯，又能自动匹配不同的 blockDim 和 gridDim ，看起来非常方便。本方法出自英伟达官方博客： https://developer.nvidia.com/blog/cuda-pro-tip-write-flexible-kernels-grid-stride-loops/ 但是为什么这里用了 2^24 个元素，按理说应该卡的不行了，却还是非常快的样子？ • 那是因为 CUDA 编译器比较聪明，自动优化了……稍后会解释他优化的原理。解决：线程局部变量 • 解决方法之一就是：先累加到局部变量 local_sum ，最后一次性累加到全局的 sum 。 • 这样每个线程就只有一次原子操作，而不是网格跨步循环的那么多次原子操作了。当然，我们需要调小

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

和第三方库作者约定俗成的，由第三方库的安装程序负责把包配置文件放到这里。如果第三方库的作者比较懒，没提供 CMake 支持（由安装程序提供 XXXConfig.cmake ），那么得用另外的一套方法（ FindXXX.cmake ），稍后细谈。 Windows 系统下的搜索路径 • / • /cmake/ • /*/ • 1/msvc2017/lib/cmake/Qt5/Qt5Config.cmake ，那么请你设置变量 Qt5_DIR 为 D:/Qt5.12.1/msvc2017/lib/cmake/Qt5 。有三种设置方法： • (1) 单次有效。在 configure 阶段，可以从命令行设置（注意要加引号）： • cmake -B build -DQt5_DIR=”D:/Qt5.12.1/msvc2017/lib/cmake/Qt5” /opt/Qt5.12.1/lib/cmake/Qt5/Qt5Config.cmake ，那么请你设置变量 Qt5_DIR 为 /opt/Qt5.12.1/lib/cmake/Qt5 。有三种设置方法： • (1) 单次有效。在 configure 阶段，可以从命令行设置： • cmake -B build -DQt5_DIR=”/opt/Qt5.12.1/lib/cmake/Qt5” •

0 码力 | 56 页 | 6.87 MB | 1 年前
3
Go读书会第二期

包导入相关 • 代码块与作用域 • 控制语句的惯用法与坑 Part4 – 语法基础：函数与方法践行哲学，遵循惯例，认清本质，理解原理 • Init 函数 • 成为“一等公民” • defer 的惯用法与坑 • 变长参数函数妙用 • 方法的本质、 receiver 参数类型选择、方法集合 Go 程序逻辑的基本承载单元 Part5 – 语法核心：接口践行哲学，遵循惯例，认清本质，理解原理 com/bigwhite/ GoProgrammingFromBeginnerToMaster 读书实践与体会第三部分 Go 技术图书阅读：从外刊到内刊 Go 中文图书 Go 外文图书读书方法精读 • 选择高质量图书 • 脑图 + 细节摘录 + 行动清单（输出）泛读 • 闲书 ( 不烧脑 ) • 碎片化（快读） + 听书小结第四部分小结 • 写书三要素

0 码力 | 26 页 | 4.55 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

虽说连续、顺序访问是最理想的，然而在使用哈希表等数据结构中，不可避免的会通过哈希函数得到随机的地址来访问，且 Value 类型可能小于 64 字节，浪费部分带宽。怎么办？解决：按 64 字节分块地随机访问 • 解决方法就是，把数据按 64 字节大小分块。随机访问时，只随机块的位置，而块的内部仍然按顺序访问。 • 可以看到 64 字节分块的效果拔群，但还是比顺序访问慢一些，为什么？明明没有浪费带宽了？了，所以只快了 10 倍左右，大家掌握里面的思想就好。进一步优化 • 用了一些常量作为参数，调整一下局部数组的大小。 • 加速比： 16 倍，大概已经到极限了？进亿步优化 • 将两个方法一起用上，并用 stream_ps 防止写回操作污染缓存。 • 最终加速比： 24 倍。这里可以看到 i - 2 和 i + 2 跨步的访存似乎不是很理想，可能还能进亿步优化，出于时间原因就没继续深入， Ja (1/1) 有一种病 ~ 叫 JavaBean~ 为什么二级指针是低效的存储和索引方式随机访问性能测试内存分配性能测试二维数组：行主序与列主序 • 实际上二维数组的扁平化分为两种方法，行主序与列主序。 • （以下符号约定： i 行号， j 列号； n 行数， m 列数） • C/C++ 编译器把静态数组 a[i][j] 翻译为 a[i * m + j] ，所以是列主序。 •

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

• iterator erase(iterator pos); 1 2 3 4 5 find(4) begin() prev(end()) end() set 增删改查操作总结操作实现方法增 a.insert(x) 删 a.erase(x) 或者 a.erase(a.find(x)) 改一旦插入就无法修改，只能先删再增查 a.find(x) != a.end() 或者 a erase(iterator first, iterator last); 1 2 3 4 5 lower_bound(2) begin() end() upper_bound(4) set 的遍历 • 遍历方法和上一课 vector 中的一样，背板即可。 • 为什么这样写呢？复习！复习 C 语言指针（ 1 ） • 上节课说了，迭代器就是在模仿 C 语言指针。 • 回想一下 C 语言咋遍历数组的：素存在，那么 find 会返回哪一个？第一个！ • find(x) 会返回第一个等于 x 的元素的迭代器。找不到也是返回 end() 。 multiset 增删改查操作总结操作实现方法增 a.insert(x) 删 a.erase(x) 或者 a.erase(a.lower_bound(x), a.upper_bound(x)) 改一旦插入就无法修改，只能先删再增查

0 码力 | 83 页 | 10.23 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

• lambda 的函数体将在另一个线程里执行。 • 接下来你可以在 main 里面做一些别的事情， download 会持续在后台悄悄运行。 • 最后调用 future 的 get() 方法，如果此时 download 还没完成，会等待 download 完成，并获取 download 的返回值。显示地等待： wait() • 除了 get() 会等待线程执行完毕外，：失败，陷入等待 • 双方都在等着对方释放锁，但是因为等待而无法释放锁，从而要无限制等下去。 • 这种现象称为死锁（ dead-lock ）。解决 1 ：永远不要同时持有两个锁 • 最为简单的方法，就是一个线程永远不要同时持有两个锁，分别上锁，这样也可以避免死锁。 • 因此这里双方都在 mtx1.unlock() 之后才 mtx2.lock() ，从而也不会出现一方等着对方的同时持有了对方等着的锁的情况。 (compare-and-swap) ，他是并行编程最常用的原子操作之一。实际上任何 atomic 操作，包括 fetch_add ，都可以基于 CAS 来实现：这就是 Taichi 实现浮点数 atomic_add 的方法。感谢观看！ by 彭于斌（ github@archibate ）录播： https://space.bilibili.com/ 263032155 课件： https://github.com/parallel101/

0 码力 | 79 页 | 14.11 MB | 1 年前
3

共 41 条前往

页

C++高性性能高性能并行编程优化课件 11 陈明煜 2023RustChinaConf 17 08 16 go golang 07 14 05

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

Rust 异步并发框架在移动端的应用 - 陈明煜

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

Go读书会第二期

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程