缓存模块 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

现代 CMake 模块化项目管理指南彭于斌（ @archibate ）课件 & 源码： https://github.com/parallel101/course 往期录播： https://space.bilibili.com/263032155 找不到头文件怎么办呀 CMake Cookbook 小彭老师建议 : ~~-·~·~-·~ -~·-·~·- 第一章：文件 / 项目，如何优雅地、模块化地组织大量源文件？推荐的目录组织方式 • 目录组织格式： • 项目名 /include/ 项目名 / 模块名 .h • 项目名 /src/ 模块名 .cpp • CMakeLists.txt 中写： • target_include_directories( 项目名 PUBLIC include) • 源码文件中写： • #include < 项目名 / 模块名 .h> 推荐的目录组织方式 • 头文件（项目名 /include/ 项目名 / 模块名 .h ）中写： • #pragma once • namespace 项目名 { • void 函数名 (); • } • 实现文件（项目名 /src/ 模块名 .cpp ）中写： • #include < 项目名 / 模块名 .h> • namespace 项目名 { • void 函数名 ()

0 码力 | 56 页 | 6.87 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

里构建，即： make -C build -j4 // 调用本地的构建系统执行 install 这个目标，即安装 -D 选项：指定配置变量（又称缓存变量） • 可见 CMake 项目的构建分为两步： • 第一步是 cmake -B build ，称为配置阶段（ configure ），这时只检测环境并生成构建规则 • 会在 build 目录下生成本地构建系统能识别的项目文件（ Makefile 或是 .sln ） • 第二步是 cmake --build build ，称为构建阶段（ build ），这时才实际调用编译器来编译代码 • 在配置阶段可以通过 -D 设置缓存变量。第二次配置时，之前的 -D 添加仍然会被保留。 • cmake -B build -DCMAKE_INSTALL_PREFIX=/opt/openvdb-8.0 • ↑ 设置安装路径为 /opt/openvdb-8 -DCMAKE_BUILD_TYPE=Release • ↑ 设置构建模式为发布模式（开启全部优化） • cmake -B build ← 第二次配置时没有 -D 参数，但是之前的 -D 设置的变量都会被保留 • （此时缓存里仍有你之前定义的 CMAKE_BUILD_TYPE 和 CMAKE_INSTALL_PREFIX ） -G 选项：指定要用的生成器 • 众所周知， CMake 是一个跨平台的构建系统，可以从 CMakeLists

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现显然不是。甚至在两个处理器上同时运行两个线程也不见得可以获得两倍的性能。相似的，大多数多线程的应用不会比双核处理器的两倍快。他们应该比单核处理器运行的快，但是性能毕竟不是线性增长。 • 为什么无法做到呢？首先，为了保证缓存一致性以及其他握手协议需要运行时间开销。在今天，双核或者四核机器在多线程应用方面，其性能不见得的是单核机器的两倍或者四倍。这一问题一直伴随 CPU 发展至今。并发和并行的区别 • 运用多线程的方式和动机，一般分为两种。 CMake 中使用： find_package CMake 中使用：作为子模块这个什么“勾勾”公司非要默认开启 tests ，导致需要去寻找 googletest ，妨碍了我们作为子模块使用。小彭老师单方面宣布：一切默认开启 tests ， docs 构建目标的 cmake 项目，有病啊！你妨碍别人作为子模块用你的项目。没错说的就是你 OpenSim ，张心欣当时浪费好多时间伺候这个沙雕库。

0 码力 | 116 页 | 15.85 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

X86/ARM - 基于 RUST 语言保证性能优势 - 分布式架构性能可线性扩展 - 针对大规模图优化的存算引擎 - 配合 Atlas 图平台，实现无代码图分析 - Query 性能分析模块，启发式提示优化 - 内置多种分析函数，面向分析师友好 -MVOCC 保证事务一致性 - 多副本管理保证数据服务高可用 - 在线备份提供容灾保障高速易用可靠 Why Rust ？实际执行时，执行器等待流数据，处理后将数据推送到下一个执行器切分执行计划，将执行计划划分成不同的执行阶段内存缓存结构：加速图数据查询 • 由于图数据的查询通常是 IO 密集型，且访问的数据随机又分散，拥有内存缓存能起到很好的加速效果 • 要想让内存缓存发挥最大的作用，就要能在有限的内存中存下尽量多的图数据 • 例如，对于属性的存储，可以通过自行序列化 / 反序列化大幅节省内存图数据库关键特性 - 基于 RUST 语言保证性能优势 - 分布式架构性能可线性扩展 - 针对大规模图的优化的存算引擎 - 配合 Atlas 图平台，实现无代码图分析 - Query 性能分析模块，启发式提示优化 - 内置多种分析函数，面向分析师友好 -MVOCC 保证事务一致性 - 多副本管理保证数据服务高可用 - 在线备份提供容灾保障高速易用可靠 Photo / image

0 码力 | 38 页 | 24.68 MB | 1 年前
3
基于 Rust Arrow Flight 的物联网和时序数据传输及转换工具霍琳贺

TDengine 是一款开源、云原生的时序数据库（ Time Series Database ），专为物联网、工业互联网、金融、 IT 运维监控等场景设计并优化，具有极强的弹性伸缩能力。同时它还带有内建的缓存、流式计算、数据订阅等系统功能，能大幅减少系统设计的复杂度，降低研发和运营成本，是一个极简的时序数据处理平台。采用关系型数据库模型  需要建库、建表，  为提升写入和查询效率，要求一个数据采集点一张表 `groupid` INT, `location` VARCHAR(24)) TDengine - 业务模式开源版企业版云服务版核心功能开源 • SQL 支持 • 无模式写入 • 缓存 • 流计算 • 数据订阅 • 集群、高可用高可靠、线性扩展 + 专业技术服务 • 边云数据复制 • 跨云 / 异地数据复制 • 增量备份 • 多级存储 • 工业数据接入全托管时序数据自我介绍 T D e n g i n e t a o s X R u s t 使用 taosX - 物联网数据接入问题 • 多种不同协议数据对接，开发复杂度高 • 模块之间关联性不高但模块组成复杂，可维护性差 • 大量设备大量数据归集存储，存储压力大 • 数据总线 / 消息队列消息接入，定制化程度要求高 • 数据业务逻辑自定义需求强 • 一定的实时数据分析能力 taosX

0 码力 | 29 页 | 2.26 MB | 1 年前
3
谈谈MYSQL那点事

Rows level lock , 读写性能都非常优秀读写性能都非常优秀 • 能够承载大数据量的存储和访问能够承载大数据量的存储和访问 • 拥有自己独立的缓冲池，能够缓存数据和索引拥有自己独立的缓冲池，能够缓存数据和索引 MySQL 架构设计—应用架构强一致性对读一致性的权衡，如果是对读写实时性要求非常高的话，就将读写都放在 M1 上面， M2 只是作为 standby 。实时写实时读，类似种涉及交易的或者动态实时报表统计的都要采用这种架构模式弱一致性如果是弱一致性的话，可以通过在 M2 上面分担一些读压力和流量，比如一些报表的读取以及静态配置数据的读取模块都可以放到 M2 上面。比如月统计报表，比如首页推荐商品业务实时性要求不是很高，完全可以采用这种弱一致性的设计架构模式。中间一致性如果既不是很强的一致性又不是很弱的一致性，那访问频繁，考虑访问频繁，考虑 Master/Slave Master/Slave 读写分离；数据库分表、数据库切片（分读写分离；数据库分表、数据库切片（分布式），也考虑使用相应缓存服务帮助布式），也考虑使用相应缓存服务帮助 MySQL MySQL 缓解访问缓解访问压力压力系统优化系统优化  配置合理的配置合理的 MySQL MySQL 服务器，尽量在应用本身达到一服务器，尽量在应用本身达到一

0 码力 | 38 页 | 2.04 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 Fortran GNU gcc g++ gfortran LLVM clang clang++ flang 多文件编译与链接 • 单文件编译虽然方便，但也有如下缺点： 1. 所有的代码都堆在一起，不利于模块化和理解。 2. 工程变大时，编译时间变得很长，改动一个地方就得全部重新编译。 • 因此，我们提出多文件编译的概念，文件之间通过符号声明相互引用。 • > g++ -c hello.cpp -o 这样当预处理器第二次读到同一个文件时，就会自动跳过 • 通常头文件都不想被重复导入，因此建议在每个头文件前加上这句话头文件进阶 - 递归地使用头文件（再续）（自动跳过） CMake 中的子模块 • 复杂的工程中，我们需要划分子模块，通常一个库一个目录，比如： • 这里我们把 hellolib 库的东西移到 hellolib 文件夹下了，里面的 CMakeLists.txt 定义了 hellolib 的生成规则。

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现当代： C++17 引入常用数值算法未来： C++20 引入区间（ ranges ） https://zhuanlan.zhihu.com/p/350068132 未来： C++20 引入模块（ module ） https://zhuanlan.zhihu.com/p/350136757 未来： C++20 允许函数参数为自动推断（ auto ）未来： C++20 引入协程（ coroutine 移动进阶：交换两者的值 • 除了 std::move 可以把 v2 移动到 v1 外， • 还可以通过 std::swap 交换 v1 和 v2 。 • swap 在高性能计算中可以用来实现双缓存（ ping-pong buffer ）。 swap 可能是这样实现的：还有哪些情况会触发“移动” • 这些情况下编译器会调用移动： • return v2

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

常见操作所花费的时间 • 图中加法 (add) 和乘法 (mul) 都指的整数。 • 区别是浮点的乘法和加法基本是一样速度。 • L1/2/3 read 和 Main RAM read 的时间指的是读一个缓存行（ 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 相差不多，符合我的预期。第 2 章：缓存与局域性针对不同数据量大小的带宽测试 • 我们试试看 a 不同的大小，对带宽有什么影响。针对不同数据量大小的带宽测试（续） • 可见数据量较小时，实际带宽甚至超过了理论带宽极限 42672 MB/s ！ • 而数据量足够大时，才回落到正常的带宽。 • 这是为什么？ CPU 内部的高速缓存 • 原来 CPU 的厂商早就意识到了内存延迟高，读写效率低器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（ cache ）。 • 当 CPU 访问某个地址时，会先查找缓存中是否有对应的数据。如果没有，则从内存中读取，并存储到缓存中；如果有，则直接使用缓存中的数据。 • 这样一来，访问的数据量比较小时，就可以自动预先加载到这个更高效的缓存里，然后再开始做运算，从而避免从外部内存读写的超高延迟。缓存的分级结构查看高速缓存大小： lscpu • 可以看到我们

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

，那就没办法全部装在高效的寄存器仓库里，而是要把一部分“打翻”到一级缓存中，这时对这些寄存器读写的速度就和一级缓存一样，相对而言低效了。若一级缓存还装不下，那会打翻到所有 SM 共用的二级缓存。 • 此外，如果在线程局部分配一个数组，并通过动态下标访问（例如遍历 BVH 时用到的模拟栈），那无论如何都是会打翻到一级缓存的，因为寄存器不能动态寻址。 • 对于 Fermi 架构来说，每个线程最多可以有经典案例：矩阵转置 • 为什么需要多维？直接手动求模运算获取 x ， y 坐标不行吗？看右边这个例子。 • 回顾一下：我们第七课讲过， CPU 上的并行 for ，通常会做循环分块提升缓存局域性。但是如果我们是传统的两层的 for 循环就低效了，对于矩阵转置这种需要 y 方向非连续访问而言，循环分块会带来很大提升。 • 所以该怎么做才能让 GPU 也循环分块呢？经典案例：矩阵转置 • 很简单，只需要使用二维的 blockDim 和 gridDim ，然后在核函数里分别计算 x 和 y 的扁平化线程编号就行了！他会自动变成循环分块一样的效果，有利于缓存局域性。 • 顺便一提 Taichi 没有用多维的 blockDim ，他统一用一维的网格跨步循环来扁平化高维循环，这就是为什么我们用 Taichi 的 for 处理二维、三维数据的

0 码力 | 142 页 | 13.52 MB | 1 年前
3

共 19 条前往

页

C++高性性能高性能并行编程优化课件 16 11 06 游人 RustCC AtlasGraph 霍琳 2023RustChinaConf Rust MySQL 01 02 07 08

分类

语言

格式