主线程 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++11 开始的多线程编程 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存，流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业）

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

点。浮点加法的计算量 • 冷知识：并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 1 次浮点读写 ≈ 8 次浮点加法 • 如果矢量化成功（ SSE ）： 1 次浮点读写 ≈ 32 次浮点加法 • 如果 CPU 有 4 核且矢量化成功：区别是浮点的乘法和加法基本是一样速度。 • L1/2/3 read 和 Main RAM read 的时间指的是读一个缓存行（ 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 指的是分支预测是否成功。多少计算量才算多？ • 看右边的 func ，够复杂了吧？也只是勉勉强强超过一二级缓存和三级缓存的大小附近。 • 因此，数据小到装的进二级缓存，则最大带宽就取决于二级缓存的带宽。稍微大一点则只能装到三级缓存，就取决于三级缓存的带宽。三级缓存也装不下，那就取决于主内存的带宽了。 • 结论：要避免 mem-bound ，数据量尽量足够小，如果能装的进缓存就高效了。 L2: 256 KB L3: 12 MB 缓存的工作机制：读 • 缓存中存储的数据结构：

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存，流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：从并发到并行摩尔定律：停止增长了吗？ • 晶体管的密度的确仍在指数增长，但处理器主频却开始停止增长了，甚至有所下降。 • 很长时间之前我们就可以达到 2GHz （ 2001 年 8 月），根据 2003 年的趋势，在 2005 年初我们就应该研发出 10GHz 的芯片。

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

我们不考虑韭菜情怀的话不用管，我们只需要指定架构的版本号是多少就行啦。 • 毕竟一个 72 这样一个单调的整数，听起来没有“高大上地致敬科学家们的名字以彰显其高尚人文情怀的超绝境界”吸引投资人嘛。第 1 章：线程与板块三重尖括号里的数字代表什么意思？ • 刚刚说了 CUDA 的核函数调用时需要用 kernel<<<1, 1>>>() 这种奇怪的语法，这里面的数字代表什么意思呢？ • 不妨把 <<<1 时所用 GPU 的线程数量。 • GPU 是为并行而生的，可以开启很大数量的线程，用于处理大吞吐量的数据。获取线程编号 • 可以通过 threadIdx.x 获取当前线程的编号，我们打印一下试试看。 • 这是 CUDA 中的特殊变量之一，只有在核函数里才可以访问。 • 可以看到线程编号从 0 开始计数，打印出了 0 ， 1 ， 2 。这也是我们指定了线程数量为 3 的缘故。获取线程数量 • 还可以用 blockDim.x 获取当前线程数量，也就是我们在尖括号里指定的 3 。 • 可是为什么叫 blockDim ？我觉得应该叫 threadNum 才比较合理？ • 小彭老师也这么觉得，可能是历史遗留下来的问题，就不追究了。线程之上：板块 • CUDA 中还有一个比线程更大的概念，那就是板块（ block ），一个板块可以有多个线程组成。这

0 码力 | 142 页 | 13.52 MB | 1 年前
3
Rust 异步并发框架在移动端的应用 - 陈明煜

mobile environment Rust 异步机制 Asynchronous Rust 异步并发框架是许多大型应用、系统具备的底层能力。区别于多线程编程模型，它带来以下优势：  任务调度颗粒度更小，充分利用线程资源  更可控的线程数  单个任务资源占用：几十 KB -> 几百 Byte  任务切换时间 : 10 微秒 -> 100 纳秒 Rust 语言并没有提供异步并发框架，并非异步运行时。它通过同步多线程模型提供了并行迭代器功能，适用于处理 CPU 密集型计算任务 rayon 现有框架无法完美适配移动端（一） Core Thread Thread Worker Worker task task Local queue Local queue Tokio 采用了如右图这种 GMP 模式： • 一核可以绑定多线程，每个线程拥有一个 Worker ，每个，每个 Worker 拥有一个任务队列 • 但线程拥有相同优先级 • Worker 只持有一个本地 FIFO 队列移动端诉求：优先级 • 任务区分优先级： UI 显示 vs 后台下载 • 大小核调度 Incompatibility of the third party Runtime with Mobile 现有框架无法完美适配移动端（二）移动端诉求：易用性 • IO 密集性任务与 CPU

0 码力 | 25 页 | 1.64 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

解决：使用互斥量和原子变量暴力解决方案就是用 std::mutex 避免多个线程同时访问。然而这样会严重影响性能，锁和原子多了，就根本并行不起来。教科书式的解决：二次判断法这样如果 block 已经非空，则可以不用上锁，减少上锁次数。如果 block 为空，则上锁；再次检测是否为空，空则分配内存，非空说明其他线程已经帮我分配好了，直接退出。结果反而还变慢了……所以有时候教科书（如 Concurrency std::mutex 会切换到操作系统内核中去调度，非常低效。而 tbb::spin_mutex 则是基于硬件原子指令的，完全用户态的实现。区别： std::mutex 的陷入等待会让操作系统挂起该线程，以切换到另一个；而 tbb::spin_mutex 的陷入等待是通过不断地 while (locked); 这样一个死循环不断轮询。对于我们高性能计算而言 tbb::spin_mutex 更高效。其实把写入过的块地址缓存起来，可以避免多次访问全局表的开销。缓存在访问者 (accessor) 的成员 map 里。访问者对象被我用 OpenMP 标记为 firstprivate ，意味着这个 map 是线程局部的，因此对他的访问不需要加锁，更快。应用在刚刚的 SNode 系统中 std::unordered_map 不支持 omp parallel for 遍历…… tbb::concurrent_unordered_map

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存，流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业）测试一下加速了多少倍？优化前：优化后：测试结果 SOA + unroll 的方案，比优化前快了 5 倍！并行情况下最快的也是 SOA 。单线程的 SOA + unroll 甚至略微超过了并行版的 AOS ！可见 OpenMP 并非万能膏药，单线程的程序认真优化后一样打败无脑并行。结论： SOA 是针对这个案例最高效的数据排布格式第 7 章： STL 容器 std::vector

0 码力 | 108 页 | 9.47 MB | 1 年前
3
JVM 内存模型

Native Method Stack PC Register JVM Stack Native Method Stack 程序计数器、虚拟机栈， native 栈为线程私有堆为线程共享方法区为线程共享 Eden From Survivor To Survivor 新生代 Old Space 老年代

0 码力 | 1 页 | 48.42 KB | 1 年前
3
Rust分布式账务系统 - 胡宇

Sourcing ● 针对读场景，写场景分别优化 ● 稳定的底层 API ● 灵活的顶层 API ● 树状结构 ● 聚合查询 ● 正确性：内存安全，线程安全 ● 可靠性： Raft 共识算法 raft-rs ● 高性能：关键路径无锁单线程顶层架构 ● Gateway 路由层 ○ 业务 API 到底层 API 的翻译 ○ 产生转账计划 ● Marker 事务层 ○ 使用业务将 events 送入 Raft 共识，等待 events 被多数节点保存 ● 3. 处理被共识的 events ，更新状态机（账户表） ○ 去重 & 更新余额 ○ 关键路径采用无锁单线程账户层： Auticuro 分布式账务系统 1 2 3 4 ● 1. 接受转账请求，转换成 events ● 2. 将 events 送入 Raft 共识，等待 events 被多数节点保存

0 码力 | 27 页 | 12.60 MB | 1 年前
3
谈谈MYSQL那点事

sort_buffer_size 512K 128M 每个线程的排序缓存大小，一般按照内存可以设置为 2M 以上，推荐是 16M ，该选项对排序 order by ， group by 起作用 record_buffer 128K 64M 每个进行一个顺序扫描的线程为其扫描的每张表分配这个大小的一个缓冲区，可以设置为 2M 以上 table_cache 64 1024 为所有线程打开表的数量。增加该值能增加 mysqld

0 码力 | 38 页 | 2.04 MB | 1 年前
3

共 23 条前往

页

C++高性性能高性能并行编程优化课件 05 07 06 08 陈明煜 2023RustChinaConf 10 04 fig java memory arch pptx 胡宇 rust 分布布式分布式账务系统 MySQL

分类

语言

格式