C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅
OpenMP 与 Intel TBB 7.被忽视的访存优化:内存带宽与 cpu 缓存机制 8.GPU 专题: wrap 调度,共享内存, barrier 9.并行算法实战: reduce , scan ,矩阵乘法等 10.存储大规模三维数据的关键:稀疏数据结构 11.物理仿真实战:邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践:从 primitive 说起 13 。 封装好了: parallel_reduce 保证每次运行结果一致: parallel_deterministic_reduce 并行缩并的额外好处:能避免浮点误差,例如求平均值 扫描( scan ) 如图所示,扫描和缩并差不多,只不过他会把求和的中间结果存到数组里去 1 个线程,依次处理 8 个元素的扫描,花了 7 秒 用电量: 1*7=7 度电 总用时: 1*7=7 秒 结论:串行扫描的时间复杂度为 O(nlogn) 。 可见,并行后虽然降低了时间复杂度,但是以提升工作复杂度为代价! 更多细节,敬请期待 GPU 专题,我们会以 CUDA 为例详细探讨两全方案。 封装好了: parallel_scan 第 3 章:性能测试 案例: map 与 reduce 的组合 测试所花费时间: tbb::tick_count::now() 并行和串行的速度比较 如何评价 • 公式:加速比 = 串行用时0 码力 | 116 页 | 15.85 MB | 1 年前3THE FIRST EXPLORATION OF PROJECT SPARROW
Rust-centric Pop!_OS 2.1.1 Rust-Written Desktop II. Practicing Sparrow https://www.phoronix.com/scan.php?page=news_item&px=Pop-OS-New-Rust-Desktop Source: https://news.itsfoss.com/system76-rust-cosmic-desktop/ Auto-configure CFS and process priorities for improved desktop responsiveness. https://www.phoronix.com/scan.php?page=news_item&px=System76-Scheduler-1.1 2.2 Rust for Cloud Native II. Practicing Sparrow0 码力 | 68 页 | 13.14 MB | 1 年前3Building Robot Apps
@sebawita The story from the community Inspired in Barcelona The problem Level up Bluetooth Scan Connect Send Command s https:// www.npmjs.com/package/nativescript-bluet ooth Sending commands0 码力 | 18 页 | 14.80 MB | 1 年前3Lock-Free Atomic Shared Pointers Without a Split Reference Count? It Can Be Done!
that has accumulated We do: Each retire, clean up one or two pieces of unprotected garbage, and scan one thread’s protected pointer. • Requires pipelining the garbage sets and the protected pointer0 码力 | 45 页 | 5.12 MB | 5 月前3Zadig 产品使用手册
核心场景介绍:不同角色工程师基于统一协作平面,操作使用自动化工作流和云原生环境 面向角色 功能描述 工作流名称样例 具体配置 开发工程师 CI 过程 project-unit-test project-scan • 单元测试、代码扫描 更新日常开发环境及 dev 业务配 置 project-dev-workflow • 构建、配置变更( Apollo/Nacos )、数 据变更、部署、冒烟测试、项目管理任务0 码力 | 52 页 | 22.95 MB | 1 年前3新一代分布式高性能图数据库的构建 - 沈游人
store ) Pushdown filter Cypher (a)-[:LIKES]->(b) 计算下推:面向图应用特征设计 分布式存储 Find Vertex Walk Vertex Scan Cartesian Product Projection Filter Stage Stage 物理执行计划 01 02 03 将不同的执行阶段推送到对应的存储 引擎,减少网络传输和内存压力0 码力 | 38 页 | 24.68 MB | 1 年前3C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起
OpenMP 与 Intel TBB 7.被忽视的访存优化:内存带宽与 cpu 缓存机制 8.GPU 专题: wrap 调度,共享内存, barrier 9.并行算法实战: reduce , scan ,矩阵乘法等 10.存储大规模三维数据的关键:稀疏数据结构 11.物理仿真实战:邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践:从 primitive 说起 130 码力 | 32 页 | 11.40 MB | 1 年前3C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化
OpenMP 与 Intel TBB 7.被忽视的访存优化:内存带宽与 cpu 缓存机制 8.GPU 专题: wrap 调度,共享内存, barrier 9.并行算法实战: reduce , scan ,矩阵乘法等 10.存储大规模三维数据的关键:稀疏数据结构 11.物理仿真实战:邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践:从 primitive 说起 130 码力 | 108 页 | 9.47 MB | 1 年前3C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶:模板元编程
OpenMP 与 Intel TBB 7.被忽视的访存优化:内存带宽与 cpu 缓存机制 8.GPU 专题: wrap 调度,共享内存, barrier 9.并行算法实战: reduce , scan ,矩阵乘法等 10.存储大规模三维数据的关键:稀疏数据结构 11.物理仿真实战:邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践:从 primitive 说起 130 码力 | 82 页 | 12.15 MB | 1 年前3C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程
OpenMP 与 Intel TBB 7.被忽视的访存优化:内存带宽与 cpu 缓存机制 8.GPU 专题: wrap 调度,共享内存, barrier 9.并行算法实战: reduce , scan ,矩阵乘法等 10.存储大规模三维数据的关键:稀疏数据结构 11.物理仿真实战:邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践:从 primitive 说起 130 码力 | 79 页 | 14.11 MB | 1 年前3
共 12 条
- 1
- 2