主进程 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

区别是浮点的乘法和加法基本是一样速度。 • L1/2/3 read 和 Main RAM read 的时间指的是读一个缓存行（ 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 指的是分支预测是否成功。多少计算量才算多？ • 看右边的 func ，够复杂了吧？也只是勉勉强强超过一二级缓存和三级缓存的大小附近。 • 因此，数据小到装的进二级缓存，则最大带宽就取决于二级缓存的带宽。稍微大一点则只能装到三级缓存，就取决于三级缓存的带宽。三级缓存也装不下，那就取决于主内存的带宽了。 • 结论：要避免 mem-bound ，数据量尽量足够小，如果能装的进缓存就高效了。 L2: 256 KB L3: 12 MB 缓存的工作机制：读 • 缓存中存储的数据结构： • }; • CacheEntry cache[512]; • 当 CPU 读取一个地址时： • 缓存会查找和该地址匹配的条目。如果找到，则给 CPU 返回缓存中的数据。如果找不到，则向主内存发送请求，等读取到该地址的数据，就创建一个新条目。 • 在 x86 架构中每个条目的存储 64 字节的数据，这个条目又称之为缓存行（ cacheline ）。 • 当访问 0x0048~0x0050

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

需要先创建 build 目录 • 切换到 build 目录 • 在 build 目录运行 cmake < 源码目录 > 生成 Makefile • 执行本地的构建系统 make 真正开始构建（ 4 进程并行） • 让本地的构建系统执行安装步骤 • 回到源码目录现代 CMake 提供了更方便的 -B 和 --build 指令，不同平台，统一命令！ • cmake -B build • x.y.z) 可以把当前项目的版本号设定为 x.y.z 。 • 之后可以通过 PROJECT_VERSION 来获取当前项目的版本号。 • PROJECT_VERSION_MAJOR 获取 x （主版本号）。 • PROJECT_VERSION_MINOR 获取 y （次版本号）。 • PROJECT_VERSION_PATCH 获取 z （补丁版本号）。一些没什么用，但 CMake 官方不知为何就是提供了的项目字段……

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

前线程休眠直到某个时间点。第 1 章：线程进程与线程 • 进程是一个应用程序被操作系统拉起来加载到内存之后从开始执行到执行结束的这样一个过程。简单来说，进程是程序（应用程序，可执行文件）的一次执行。比如双击打开一个桌面应用软件就是开启了一个进程。 • 线程是进程中的一个实体，是被系统独立分配和调度的基本单位。也有说，线程是 CPU 可执行调度的最小单位。也就是说，进程本身并不能获取 CPU 时间，只有它的线程才可以。时间，只有它的线程才可以。 • 从属关系：进程 > 线程。一个进程可以拥有多个线程。 • 每个线程共享同样的内存空间，开销比较小。 • 每个进程拥有独立的内存空间，因此开销更大。 • 对于高性能并行计算，更好的是多线程。为什么需要多线程：无阻塞多任务 • 我们的程序常常需要同时处理多个任务。 • 例如：后台在执行一个很耗时的任务，比如下载一个文件，同时还要和用户交互。 • 这在 GUI 出了。主线程等待子线程结束： t1.join() • 因此，我们想要让主线程不要急着退出，等子线程也结束了再退出。 • 可以用 std::thread 类的成员函数 join() 来等待该进程结束。 std::thread 的解构函数会销毁线程 • 作为一个 C++ 类， std::thread 同样遵循 RAII 思想和三五法则：因为管理着资源，他自定义了解构函数，删除了拷贝构造

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

各维度上的大小通过 cudaExtent 指定，方便起见我们的 C++ 封装类用了 uint3 表示大小。 • GPU 的多维数组有特殊的数据排布来保障访存的高效，和我们 CPU 那样简单地行主序或列主序（如 a[x + nx * y] ）的多维数组不一样。 • 随后可用 cudaMemcpy3D 在 GPU 的三维数组和 CPU 的三维数组之间拷贝数据。 CUDA 表面对象：封装是不是无散度（不可压缩流）了。多重网格法投影部分：多重网格实现投影部分：红黑高斯投影部分：计算残差投影部分：缩小一倍投影部分：清零数组投影部分：扩大一倍创建与导出主函数：创建场景导出 VDB ：调用接口导出 VDB ：分离实现 CMake ：使用 CUDA 编译器，链接 OpenVDB 在 Blender 中查看导出的结果边界条件边界条件：初始化

0 码力 | 58 页 | 14.90 MB | 1 年前
3
Zadig 产品使用手册

标配，帮助企业全面实现产研数字化转型。核心团队由 D e v O p s 领域云计算工程技术专家和高级工程师为主，核心成员是来自于谷歌，腾讯，七牛云，阿里的技术骨干。公司已经连续完成来自顶级资本的多轮融资。自 Z 。专注在云原生 C I / C D 、 D e v O p s 、平台工程架构等大规模软件研发的基础工程领域的研究和应用。主导研发的 Z a d i g 开源 D e v O p s 软件工程平台已被 2 0 0 0 多家企业广泛使用，包括字节跳动飞书、

0 码力 | 52 页 | 22.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：从并发到并行摩尔定律：停止增长了吗？ • 晶体管的密度的确仍在指数增长，但处理器主频却开始停止增长了，甚至有所下降。 • 很长时间之前我们就可以达到 2GHz （ 2001 年 8 月），根据 2003 年的趋势，在 2005 年初我们就应该研发出 10GHz 的芯片。域按照常规的两层循环访问以便矢量化，块外部大区域则以类似 Z 字型的曲线遍历，这样能保证每次访问的数据在地址上比较靠近，并且都是最近访问过的，从而已经在缓存里可以直接读写，避免了从主内存读写的超高延迟。 • 下次课会进一步深入探讨访存优化，详细剖析这个案例，那么下周六 14 点敬请期待。第 6 章：并发容器 std::vector 扩容时会移动元素 • std::vector

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

时，操作系统并不会实际分配那一块内存，而是将这一段内存标记为“不可用”。当用户试图访问（写入）这一片内存时，硬件就会触发所谓的缺页中断（ page fault ），进入操作系统内核，内核会查找当前进程的 malloc 历史记录。如果发现用户写入的地址是他曾经 malloc 过的地址区间，则执行实际的内存分配，并标记该段内存为“可用”，下次访问就不会再产生缺页中断了；而如果用户写入的地址根本不是他

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

的包，找不到不报错，也不打印任何信息。 • find_package(OpenCV REQUIRED) # 最常见用法 • 查找名为 OpenCV 的包，找不到就报错（并终止 cmake 进程，不再继续往下执行）。 • find_package(OpenCV REQUIRED COMPONENTS core videoio) • 查找名为 OpenCV 的包，找不到就报错，且必须具有

0 码力 | 56 页 | 6.87 MB | 1 年前
3
Go读书会第二期

Go 读书会第二期白明《 Go 语言精进之路》作者 tonybai.com 博主目录写书的历程 0 1 Go 语言精进之路导读 0 2 我是怎么读书的 0 3 写书的历程第一部分程序员的“小目标”与写书三要素写书三要素写书 <- 能力 +意愿 + 机会过程写书不易，写高质量的书更难 2018 年下旬开始动笔 2020 年 11 月下旬初稿交付

0 码力 | 26 页 | 4.55 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

算法实现，进行数据副本处理，头结点写，多结点读，支持读写分离，提供更好的并发查询能力数据高可用实现 Chain Replication 数据高可用方案服务高可用实现系统中 Meta ， TS 服务采用主备架构，基于 Raft 算法实现租约，进行服务多活，保证图库不会出现单点故障。 Raft 服务高可用方案偏向分析型的分布式事务【 MVOCC 事务提交】基于多版本乐观并发控制技术的分布式事

0 码力 | 38 页 | 24.68 MB | 1 年前
3

共 12 条前往

页

C++高性性能高性能并行编程优化课件 07 11 05 09 Zadig 产品使用手册使用手册 06 10 16 go golang 游人 RustCC AtlasGraph

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

Zadig 产品使用手册

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

Go读书会第二期

新一代分布式高性能图数据库的构建 - 沈游人