对象存储 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评了单独一个指令。这里尽管不是地址，但同样可以利用 lea 指令简化生成的代码大小。 eax = rdi + rsi * 8 指针访问对象：线性访问地址 rsi = (int64_t)esi eax = *(int *)(rdi + rsi * 4) 为什么乘以 4 ？因为访问的对象， int 的大小是 4 。指针的索引：尽量用 size_t eax = *(int *)(rdi + rsi * 4) 什么是 xmm 系列寄存器？ • xmm 寄存器有 128 位宽。 • 可以容纳 4 个 float ，或 2 个 double 。 • 刚才的案例中只用到了 xmm 的低 32 位用于存储 1 个 float 。 addss 是什么意思？ • 可以拆分成三个部分： add ， s ， s 1. add 表示执行加法操作。 2. 第一个 s 表示标量 (scalar) ，只对 xmm

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 GPU 专题）为什么需要模板函数（ template ） • 避免重复写代码。 • 比如，利用重载实现“将一个数乘以 2” 这个功能，需要：为什么面向对象在 HPC 不如函数式和元编程香了？这个例子要是按传统的面向对象思想，可能是这样：令 Int, Float, Double 继承 Numeric 接口类并实现，其中 multiply(int) 作为虚函数。然后定义： Numeric 特性：引用（ int & ） • 众所周知， C++ 中有一种特殊的类型，叫做引用。只需要在原类型后面加一个 & 即可。 • 引用的本质无非是指针，当我们试图修改一个引用时，实际上是修改了原来的对象：等价于：可见，和 C 语言的 int * 相比无非是减少了 & 和 * 的麻烦而已。 C++ 特性：常引用（ int const & ） • 如果说 int & 相当于 int *

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

allocator ，内存管理与对象生命周期 ASCII 码第 1 章计算机如何表达字符 https://zh.wikipedia.org/wiki/ASCII 计算机如何表达字符 • 众所周知，计算机只能处理二进制整数，字符要怎么办呢？ • 于是就有了 ASCII 码表，他规定，每个英文字符（包括大小写字母、数字、特殊符号）都对应着一个整数。在计算机里只要存储这个的整数，就能代表这个字符了。器里开洞。但“移动语义”这个概念在旧 cpp 里没有，所以这个是真正必要的语言本身的改动。 • 而 java 就是在语言层面，直接在 jvm 里引入了引用计数，宣称“一切皆对象”，虽然方便了富连网业务中常见的面向对象编程范式，但也妨碍了 java 进军数据处理，高性能计算等领域。 java 第八帝国 cpp 第十一共和国 chrono 和 complex 也定义了一些 literials 则不会抛出异常，他只是简单地给字符串的首地址指针和 i 做个加法运算，得到新的指针并解引用。如果你给的 i 超过了字符串大小 i ≥ s.size() ，那程序的行为是未定义的，因为这个地方可能有其他的对象，程序可能会奔溃，也可能行为异常。如果是富连网程序，还可能会被黑客利用，窃取或篡改服务器上的数据。 • 那为什么还要 [] ？性能！ at 做越界检测需要额外的开销， [] 不需要。 • 所以

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

C++ 标准库五大件：分配器（ allocator ）侯捷 STL 侯捷 STL vector 容器 vector 容器：构造函数 • vector 的功能是长度可变的数组，他里面的数据存储在堆上。 • vector 是一个模板类，第一个模板参数是数组里元素的类型。 • 例如，声明一个元素是 int 类型的动态数组 a ： • vector a; vector 容器：构造函数和 const noexcept; vector 容器： data() 获取首地址指针 • data() 会返回指向数组中首个元素的指针，也就是等价于 &a[0] 。由于 vector 是连续存储的数组，因此只要得到了首地址，下一个元素的地址只需指针 +1 即可。 • 因为指针的 p[i] 相当于 *(p + i) ，因此可以把 data() 返回的首地址指针当一个数组来访问。 com/zenustech/zeno/blob/master/zenovis/src/Scene.cpp vector 容器：生命周期由主对象管理 • C++ 中哪个运算符是最强的？我觉得是 } • 因为 } 标志着一个语句块的结束，在这里，他会调用所有身处其中的对象的解构函数。比如这里的 vector ，他的解构函数会释放动态数组的内存（即自动 delete ）。 • vector 会在退出作用域时释放内存，这时候所

0 码力 | 90 页 | 4.93 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

1 章：添加源文件一个 .cpp 源文件用于测试 CMake 中添加一个可执行文件作为构建目标另一种方式：先创建目标，稍后再添加源文件如果有多个源文件呢？逐个添加即可使用变量来存储建议把头文件也加上，这样在 VS 里可以出现在“ Header Files” 一栏使用 GLOB 自动查找当前目录下指定扩展名的文件，实现批量添加源文件启用 CONFIGURE_DEPENDS 改进： mylib 作为一个对象库 https://www.scivision.dev/cmake-object-libraries/ 对象库类似于静态库，但不生成 .a 文件，只由 CMake 记住该库生成了哪些对象文件改进： mylib 作为一个对象库 https://www.scivision.dev/cmake-object-libraries/ 对象库类似于静态库，但不生成 .a 记住该库生成了哪些对象文件对象库是 CMake 自创的，绕开了编译器和操作系统的各种繁琐规则，保证了跨平台统一性。在自己的项目中，我推荐全部用对象库 (OBJECT) 替代静态库 (STATIC) 避免跨平台的麻烦。对象库仅仅作为组织代码的方式，而实际生成的可执行文件只有一个，减轻了部署的困难。静态库的麻烦： GCC 编译器自作聪明，会自动剔除没有引用符号的那些对象对象库可以绕开编译

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评分离该线程——意味着线程的生命周期不再由当前 std::thread 对象管理，而是在线程退出以后自动销毁自己。 • 不过这样还是会在进程退出时候自动退出。解构函数不再销毁线程：移动到全局线程池 • 但是 detach 的问题是进程退出时候不会等待所有子线程执行完毕。所以另一种解法是把 t1 对象移动到一个全局变量去，从而延长其生命周期到 myfunc 函数体外。 opengl 的百般拖后腿下实现了并发。第 2 章：异步异步好帮手： std::async • std::async 接受一个带返回值的 lambda ，自身返回一个 std::future 对象。 • lambda 的函数体将在另一个线程里执行。 • 接下来你可以在 main 里面做一些别的事情， download 会持续在后台悄悄运行。 • 最后调用 future 的 get()

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

IObject 一切对象的公共基类。 • INode 一切节点的公共基类。多态的经典案例 • IObject 具有一个 eatFood 纯虚函数，而 CatObject 和 DogObject 继承自 IObject ，他们实现了 eatFood 这个虚函数，实现了多态。 • 注意这里解构函数（ ~IObject ）也需要是虚函数，否则以 IObject * 存储的指针在 delete 接口。小知识： shared_ptr 如何深拷贝？浅拷贝：深拷贝：思考：能不能把拷贝构造函数也作为虚函数？ • 现在我们的需求有变，不是去对同一个对象调用两次 eatTwice ，而是先把对象复制一份拷贝，然后对对象本身和他的拷贝都调用一次 eatFood 虚函数。 • 代码如下，这要怎么个封装法呢？你可能会想，是不是可以把拷贝构造函数也声明为虚函数，这样就能实现了拷贝的多态？不行，因为数，这样就能实现了拷贝的多态？不行，因为 C++ 规定“构造函数不能是虚函数”。模板函数？未免有些差强人意 • 索性把 eatTwice 声明为模板函数的确能解决问题，但模板函数不是面向对象的思路，并且如果 cat 和 dog 是在一个 IObject 的指针里就会编译出错，例如右图的 vector （这是游戏引擎中很常见的用法）。正确解法：额外定义一个 clone 作为纯虚函数，然后让猫和狗分别实现他

0 码力 | 54 页 | 3.94 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

第 0 章：稀疏矩阵稠密数组存储矩阵用 foreach 包装一下枚举的过程改用 map 来存储分离 read/write/create 三种访问模式 foreach 直接给出当前坐标指向的值改用 unordered_map 来存储 unordered_map 手动 read(i, j) 也一样速度索性把坐标和值打包成 tuple ，存储在 vector 按行压缩（ Compressed e91.html 第 1 章：稀疏网格稠密网格计算粒子经过的格点数量改用更小的 char 存储只用一个 bit 存储，一个 char 可以存储 8 个 bit 用 map 来存储读取：如果不存在，则读到 0 写入：如果不存在，则创建该表项用 unordered_map 来存储 map 基于红黑树，会按照键值排序，需要键值具有 operator< 重载，复杂度 O(logn) 16x16 分块存储分块能减少 unordered_map 中存储的表项数量，从而减轻哈希的压力。但意味着键值在空间上需要具有一定的局域性，否则会浪费分块中一部分空间。然而我们这里是要用他记录粒子经过的点，因此具有一定空间局域性，能够被分块优化。实际上空间局域性正是稀疏网格能够实现的一大前提，稍后详细讨论。在 16x16 分块的基础上，只用一个 bit 存储图片解释稀疏的好处

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

CPU 的厂商早就意识到了内存延迟高，读写效率低下的问题。因此他们在 CPU 内部引入了一片极小的存储器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（ cache ）。 • 当 CPU 访问某个地址时，会先查找缓存中是否有对应的数据。如果没有，则从内存中读取，并存储到缓存中；如果有，则直接使用缓存中的数据。 • 这样一来，访问的数据量比较小时，就可以自动预先加宽。三级缓存也装不下，那就取决于主内存的带宽了。 • 结论：要避免 mem-bound ，数据量尽量足够小，如果能装的进缓存就高效了。 L2: 256 KB L3: 12 MB 缓存的工作机制：读 • 缓存中存储的数据结构： • struct CacheEntry { • bool valid; • uint64_t address; • char data[64]; • }; 架构中每个条目的存储 64 字节的数据，这个条目又称之为缓存行（ cacheline ）。 • 当访问 0x0048~0x0050 这 4 个字节时，实际会导致 0x0040~0x0080 的 64 字节数据整个被读取到缓存中。 • 这就是为什么我们喜欢把数据结构的起始地址和大小对齐到 64 字节，为的是不要浪费缓存行的存储空间。缓存的工作机制：写 • 缓存中存储的数据结构：

0 码力 | 147 页 | 18.88 MB | 1 年前
3
Borsh 安全高效的二进制序列化

Object Representation Serializer for Hashing • 字节级别确定性 • 执行速度快 Borsh • 轻量级 • 每一个对象与其二进制表示之间都存在一个双射映射 • 不同的对象的二进制表示一定不同 • 便于基于二进制表示进行 Hash 字节级别确定性 • 在 Rust 中， borsh 并没有使用 serde • 全部逻辑原生实现 • • 保证序列化后的二进制唯一性和确定性 • 主要序列化规则 Borsh 规范 • 整数采用低字节序（ little endian) 存储 • 对于动态长度的集合，先用一个 u32 存储集合 size • 对于原本无序的集合（如 hashmap ），存储时使用 key 的字典序排序 Borsh 规范 let a: [u32; 5] = [1, 2, 3, 4, 5]; let a = vec

0 码力 | 21 页 | 3.35 MB | 1 年前
3

共 29 条前往

页

C++高性性能高性能并行编程优化课件 04 03 15 13 11 05 10 07 Rust Borsh

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

Borsh 安全高效的二进制序列化