调度模块 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

现代 CMake 模块化项目管理指南彭于斌（ @archibate ）课件 & 源码： https://github.com/parallel101/course 往期录播： https://space.bilibili.com/263032155 找不到头文件怎么办呀 CMake Cookbook 小彭老师建议 : ~~-·~·~-·~ -~·-·~·- 第一章：文件 / 项目，如何优雅地、模块化地组织大量源文件？推荐的目录组织方式 • 目录组织格式： • 项目名 /include/ 项目名 / 模块名 .h • 项目名 /src/ 模块名 .cpp • CMakeLists.txt 中写： • target_include_directories( 项目名 PUBLIC include) • 源码文件中写： • #include < 项目名 / 模块名 .h> 推荐的目录组织方式 • 头文件（项目名 /include/ 项目名 / 模块名 .h ）中写： • #pragma once • namespace 项目名 { • void 函数名 (); • } • 实现文件（项目名 /src/ 模块名 .cpp ）中写： • #include < 项目名 / 模块名 .h> • namespace 项目名 { • void 函数名 ()

0 码力 | 56 页 | 6.87 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解互。并在主线程中等待该任务组里的任务全部执行完毕。 • 区别在于，一个任务不一定对应一个线程，如果任务数量超过 CPU 最大的线程数，会由 TBB 在用户层负责调度任务运行在多个预先分配好的线程，而不是由操作系统负责调度线程运行在多个物理核心。封装好了： parallel_invoke 更好的例子第 1 章：并行循环时间复杂度（ time-efficiency ）与工作量复杂度（ CMake 中使用： find_package CMake 中使用：作为子模块这个什么“勾勾”公司非要默认开启 tests ，导致需要去寻找 googletest ，妨碍了我们作为子模块使用。小彭老师单方面宣布：一切默认开启 tests ， docs 构建目标的 cmake 项目，有病啊！你妨碍别人作为子模块用你的项目。没错说的就是你 OpenSim ，张心欣当时浪费好多时间伺候这个沙雕库。

0 码力 | 116 页 | 15.85 MB | 1 年前
3
Rust 异步并发框架在移动端的应用 - 陈明煜

chenmingyu4@huawei.com 华为公共开发部嵌入式软件能力中心本科就读加州大学圣地亚哥分校，毕业时长两年半， Rustacean 在华为目前正在使用 Rust 开发并行调度框架等模块。 Rust 异步并发框架在移动端的应用陈明煜 chenmingyu4@huawei.com 华为公共开发部嵌入式软件能力中心 Applications of Rust Runtime mobile environment Rust 异步机制 Asynchronous Rust 异步并发框架是许多大型应用、系统具备的底层能力。区别于多线程编程模型，它带来以下优势：  任务调度颗粒度更小，充分利用线程资源  更可控的线程数  单个任务资源占用：几十 KB -> 几百 Byte  任务切换时间 : 10 微秒 -> 100 纳秒 Rust 语言并没有提供异步并发框架， Third Party Runtime 目前 Rust 社区最广泛使用的事件驱动型调度框架，擅长处理大量异步 IO 的场景。具有非常强大的生态。 tokio 第一个适配 Rust async/await 原语的运行时库，与 tokio 类似支持异步 IO ，目前已经半废弃 async-std 更轻量化的调度框架，功能被拆分到其他多个库中， IO 密集场景性能不如 Tokio smol

0 码力 | 25 页 | 1.64 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 Fortran GNU gcc g++ gfortran LLVM clang clang++ flang 多文件编译与链接 • 单文件编译虽然方便，但也有如下缺点： 1. 所有的代码都堆在一起，不利于模块化和理解。 2. 工程变大时，编译时间变得很长，改动一个地方就得全部重新编译。 • 因此，我们提出多文件编译的概念，文件之间通过符号声明相互引用。 • > g++ -c hello.cpp -o 这样当预处理器第二次读到同一个文件时，就会自动跳过 • 通常头文件都不想被重复导入，因此建议在每个头文件前加上这句话头文件进阶 - 递归地使用头文件（再续）（自动跳过） CMake 中的子模块 • 复杂的工程中，我们需要划分子模块，通常一个库一个目录，比如： • 这里我们把 hellolib 库的东西移到 hellolib 文件夹下了，里面的 CMakeLists.txt 定义了 hellolib 的生成规则。

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解当代： C++17 引入常用数值算法未来： C++20 引入区间（ ranges ） https://zhuanlan.zhihu.com/p/350068132 未来： C++20 引入模块（ module ） https://zhuanlan.zhihu.com/p/350136757 未来： C++20 允许函数参数为自动推断（ auto ）未来： C++20 引入协程（ coroutine

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

据。还有点特殊的性质，我们稍后会讲。 • 通常板块数量总是大于 SM 的数量，这时英伟达驱动就会在多个 SM 之间调度你提交的各个板块。正如操作系统在多个 CPU 核心之间调度线程那样…… • 不过有一点不同， GPU 不会像 CPU 那样做时间片轮换——板块一旦被调度到了一个 SM 上，就会一直执行，直到他执行完退出，这样的好处是不存在保存和切换上下文（寄存器，共享内存等）的开销，毕竟存器，共享内存等）的开销，毕竟 GPU 的数据量比较大，禁不起这样切换来切换去…… • 一个 SM 可同时运行多个板块，这时多个板块共用同一块共享内存（每块分到的就少了）。 • 而板块内部的每个线程，则是被进一步调度到 SM 上的每个 SP 。无原子的解决方案： sum 变成数组 • 刚刚的数组求和例子，其实可以不需要原子操作。 • 首先，声明 sum 为比原数组小 1024 倍的数组。 • 然后在 GPU 这样就能保证之前其他线程的 local_sum 都已经写入成功了。线程组（ warp ）： 32 个线程为一组 • 其实， SM 对线程的调度是按照 32 个线程为一组来调度的。也就是说， 0-31 号线程为一组， 32-63 号线程为一组，以此类推。 • 因此 SM 的调度无论如何都是对一整个线程组（ warp ）进行的，不可能出现一个组里只有单独一个线程被调走，要么 32 个线程一起调走。

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解样一个过程。简单来说，进程是程序（应用程序，可执行文件）的一次执行。比如双击打开一个桌面应用软件就是开启了一个进程。 • 线程是进程中的一个实体，是被系统独立分配和调度的基本单位。也有说，线程是 CPU 可执行调度的最小单位。也就是说，进程本身并不能获取 CPU 时间，只有它的线程才可以。 • 从属关系：进程 > 线程。一个进程可以拥有多个线程。 • 每个线程共享同样的内存空间，开销比较小。个人写入，没有人读取。 3. 没有人读取，也没有人写入。读写锁： shared_mutex • 为此，标准库提供了 std::shared_mutex 。 • 上锁时，要指定你的需求是拉还是喝，负责调度的读写锁会帮你判断要不要等待。 • 这里 push_back() 需要修改数据，因需求此为拉，使用 lock() 和 unlock() 的组合。 • 而 size() 则只要读取数据，不修改数据，

0 码力 | 79 页 | 14.11 MB | 1 年前
3
Await-Tree Async Rust 可观测性的灵丹妙药 - 赵梓淇

异步编程的共同优势 • async/await 关键字 • 用户态调度 • Async Rust 的独特优势 • Ownership 与 Lifetime • 无栈协程 Async Rust 回顾 Rust 的无栈协程抽象 — Future Async Rust 回顾 • 通过 poll 驱动的状态机 • 组合嵌套为调度单元： Task • async fn 语法糖 Async Rust • Backtrace 不够直观 ( 调用栈 -> 调用树 ) • Tracing 无法追踪调用关系的变化 Async Rust 观测与调试的痛点 Async Rust 回顾 • 特性：用户态调度的无栈协程 • Pending Task 不存在栈空间 • 痛点：观测与调试工具无法还原 Pending Task 的执行状态 • 难以得知 Task 阻塞的位置和原因 • 难以调试 Async

0 码力 | 37 页 | 8.60 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

CMAKE_CURRENT_BINARY_DIR 表示当前输出目录的位置，例如 ~/hellocmake/build 。 project ：初始化项目信息，并把当前 CMakeLists.txt 所在位置作为根目录和子模块的关系： PROJECT_x_DIR 和 CMAKE_CURRENT_x_DIR 的区别 PROJECT_SOURCE_DIR 表示最近一次调用 project 的 CMakeLists.txt CMAKE_SOURCE_DIR 表示最为外层 CMakeLists.txt 的源码根目录。利用 PROJECT_SOURCE_DIR 可以实现从子模块里直接获得项目最外层目录的路径。不建议用 CMAKE_SOURCE_DIR ，那样会让你的项目无法被人作为子模块使用。其他相关变量 • PROJECT_SOURCE_DIR ：当前项目源码路径（存放 main.cpp 的地方） • PROJECT_BINARY_DIR https://cmake.org/cmake/help/latest/command/project.html 子模块里也可以用 project 命令，将当前目录作为一个独立的子项目这样一来 PROJECT_SOURCE_DIR 就会是子模块的源码目录而不是外层了。这时候 CMake 会认为这个子模块是个独立的项目，会额外做一些初始化。他的构建目录 PROJECT_BINARY_DIR 也会变成 build/<

0 码力 | 166 页 | 6.54 MB | 1 年前
3
GPU Resource Management On JDOS

– 支持官方镜像，不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源，提高 GPU 利用率 – Job 调度（部门 quota 限制 + 优先级） • 创建训练 – 用户选择集群提供代码地址和执行命令即可 – 选择所用框架（镜像）：支持官方，亦可自制（提供 dockerfile 生成镜像服务）

0 码力 | 11 页 | 13.40 MB | 1 年前
3

共 21 条前往

页

C++高性性能高性能并行编程优化课件 16 06 陈明煜 2023RustChinaConf 01 02 08 05 赵梓 Await-Tree Rust 11 GPU JDOS

分类

语言

格式