对象存储技术 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

与 lambda 表达式知多少 6. 通过实战案例来学习 STL 算法库 7. C++ 标准输入输出流 & 字符串格式化 8. traits 技术，用户自定义迭代器与算法 9. allocator ，内存管理与对象生命周期 ASCII 码第 1 章计算机如何表达字符 https://zh.wikipedia.org/wiki/ASCII 计算机如何表达字符 • • 众所周知，计算机只能处理二进制整数，字符要怎么办呢？ • 于是就有了 ASCII 码表，他规定，每个英文字符（包括大小写字母、数字、特殊符号）都对应着一个整数。在计算机里只要存储这个的整数，就能代表这个字符了。 • 例如 32 代表空格， 48 代表 ‘ 0’ ， 65 代表 ‘ A’ ， 97 代表 ‘ a’…… • 32~126 这些整数就用于是表示这些可显示字符 (printable ），必须和右边的参数一致，初学者容易搞错。 • 而且即使搞错了也能正常编译通过（一些高级的编译器会给出警告），但是运行结果不对，或者还有可能崩溃。泛型的 iostream 应运而生 • 得益于 C++ 的重载技术， cout 不用你手动指定类型，他会自动识别参数的类型，帮你调用相应的格式化函数。 c_str 和 data 的区别 • s.c_str() 保证返回的是以 0 结尾的字符串首地址指针，总长度为

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

IObject 一切对象的公共基类。 • INode 一切节点的公共基类。多态的经典案例 • IObject 具有一个 eatFood 纯虚函数，而 CatObject 和 DogObject 继承自 IObject ，他们实现了 eatFood 这个虚函数，实现了多态。 • 注意这里解构函数（ ~IObject ）也需要是虚函数，否则以 IObject * 存储的指针在 delete 接口。小知识： shared_ptr 如何深拷贝？浅拷贝：深拷贝：思考：能不能把拷贝构造函数也作为虚函数？ • 现在我们的需求有变，不是去对同一个对象调用两次 eatTwice ，而是先把对象复制一份拷贝，然后对对象本身和他的拷贝都调用一次 eatFood 虚函数。 • 代码如下，这要怎么个封装法呢？你可能会想，是不是可以把拷贝构造函数也声明为虚函数，这样就能实现了拷贝的多态？不行，因为数，这样就能实现了拷贝的多态？不行，因为 C++ 规定“构造函数不能是虚函数”。模板函数？未免有些差强人意 • 索性把 eatTwice 声明为模板函数的确能解决问题，但模板函数不是面向对象的思路，并且如果 cat 和 dog 是在一个 IObject 的指针里就会编译出错，例如右图的 vector （这是游戏引擎中很常见的用法）。正确解法：额外定义一个 clone 作为纯虚函数，然后让猫和狗分别实现他

0 码力 | 54 页 | 3.94 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评了单独一个指令。这里尽管不是地址，但同样可以利用 lea 指令简化生成的代码大小。 eax = rdi + rsi * 8 指针访问对象：线性访问地址 rsi = (int64_t)esi eax = *(int *)(rdi + rsi * 4) 为什么乘以 4 ？因为访问的对象， int 的大小是 4 。指针的索引：尽量用 size_t eax = *(int *)(rdi + rsi * 4) 什么是 xmm 系列寄存器？ • xmm 寄存器有 128 位宽。 • 可以容纳 4 个 float ，或 2 个 double 。 • 刚才的案例中只用到了 xmm 的低 32 位用于存储 1 个 float 。 addss 是什么意思？ • 可以拆分成三个部分： add ， s ， s 1. add 表示执行加法操作。 2. 第一个 s 表示标量 (scalar) ，只对 xmm

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 GPU 专题）为什么需要模板函数（ template ） • 避免重复写代码。 • 比如，利用重载实现“将一个数乘以 2” 这个功能，需要：为什么面向对象在 HPC 不如函数式和元编程香了？这个例子要是按传统的面向对象思想，可能是这样：令 Int, Float, Double 继承 Numeric 接口类并实现，其中 multiply(int) 作为虚函数。然后定义： Numeric 要是编译器哪怕细看了一眼：字符串怎么可能被写入呢？肯定是会出错的。 • 但是却没有出错，这是因为模板没有被调用，所以不会被实际编译！ • 而只有当 main 调用了这个函数，才会被编译，才会报错！ • 用一个假模板实现延迟编译的技术，可以加快编译的速度，用于代理模式等。模板函数：一个例子 • 比如，要打印任意一个 vector ：模板函数：配合运算符重载 • 实现用 std::cout << a 打印任意 vector

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

第 0 章：稀疏矩阵稠密数组存储矩阵用 foreach 包装一下枚举的过程改用 map 来存储分离 read/write/create 三种访问模式 foreach 直接给出当前坐标指向的值改用 unordered_map 来存储 unordered_map 手动 read(i, j) 也一样速度索性把坐标和值打包成 tuple ，存储在 vector 按行压缩（ Compressed e91.html 第 1 章：稀疏网格稠密网格计算粒子经过的格点数量改用更小的 char 存储只用一个 bit 存储，一个 char 可以存储 8 个 bit 用 map 来存储读取：如果不存在，则读到 0 写入：如果不存在，则创建该表项用 unordered_map 来存储 map 基于红黑树，会按照键值排序，需要键值具有 operator< 重载，复杂度 O(logn) 16x16 分块存储分块能减少 unordered_map 中存储的表项数量，从而减轻哈希的压力。但意味着键值在空间上需要具有一定的局域性，否则会浪费分块中一部分空间。然而我们这里是要用他记录粒子经过的点，因此具有一定空间局域性，能够被分块优化。实际上空间局域性正是稀疏网格能够实现的一大前提，稍后详细讨论。在 16x16 分块的基础上，只用一个 bit 存储图片解释稀疏的好处

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

和 CUDA_ARCHITECTURES 也有这两种方式，我一般推荐直接设置全局的 CMAKE_CXX_STANDARD 即可应用到全部 add_executable/add_library 的对象上，比较方便。进一步：核函数调用核函数 • 从 Kelper 架构开始， __global__ 里可以调用另一个 __global__ ，也就是说核函数可以调用另一个核函数，且其三重尖括号 cudaMemcpy 会自动进行同步操作，即和 cudaDeviceSynchronize() 等价！因此前面的 cudaDeviceSynchronize() 实际上可以删掉了。统一内存地址技术（ Unified Memory ） • 还有一种在比较新的显卡上支持的特性，那就是统一内存 (managed) ，只需把 cudaMalloc 换成 cudaMallocManaged 也就是 std::vector 等价于 std::vector> 。 • std::allocator 的功能是负责分配和释放内存，初始化 T 对象等等。 • 他具有如下几个成员函数： • T *allocate(size_t n) // 分配长度为 n ，类型为 T 的数组，返回其起始地址 •

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

CPU 的厂商早就意识到了内存延迟高，读写效率低下的问题。因此他们在 CPU 内部引入了一片极小的存储器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（ cache ）。 • 当 CPU 访问某个地址时，会先查找缓存中是否有对应的数据。如果没有，则从内存中读取，并存储到缓存中；如果有，则直接使用缓存中的数据。 • 这样一来，访问的数据量比较小时，就可以自动预先加宽。三级缓存也装不下，那就取决于主内存的带宽了。 • 结论：要避免 mem-bound ，数据量尽量足够小，如果能装的进缓存就高效了。 L2: 256 KB L3: 12 MB 缓存的工作机制：读 • 缓存中存储的数据结构： • struct CacheEntry { • bool valid; • uint64_t address; • char data[64]; • }; 架构中每个条目的存储 64 字节的数据，这个条目又称之为缓存行（ cacheline ）。 • 当访问 0x0048~0x0050 这 4 个字节时，实际会导致 0x0040~0x0080 的 64 字节数据整个被读取到缓存中。 • 这就是为什么我们喜欢把数据结构的起始地址和大小对齐到 64 字节，为的是不要浪费缓存行的存储空间。缓存的工作机制：写 • 缓存中存储的数据结构：

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 • 鉴于 C++20 还没有普遍落地（例如 CMake 不支持 C++20 modules ）因此我们的课程基于 C++17 标准，有时会谈到 C++20 作为扩展阅读。 C++ 有哪些面向对象思想？ C++ 思想：封装比如要表达一个数组，需要：起始地址指针 v ，数组大小 nv 将多个逻辑上相关的变量包装成一个类因此 C++ 的 vector 将他俩打包起来，避免程序员犯错封装：不变性糊（有好处也有坏处，对高性能计算而言利大于弊）如果没有解构函数，则每个带有返回的分支都要手动释放所有之前的资源 : RAII ：异常安全（ exception-safe ） C++ 标准保证当异常发生时，会调用已创建对象的解构函数。因此 C++ 中没有（也不需要） finally 语句。如果此处不关闭，则可等待稍后垃圾回收时关闭。虽然最后还是关了，但如果对时序有要求或对性能有要求就不能依靠 GC 。

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

lambda 表达式知多少 6. 通过实战案例来学习 STL 算法库 7. C++ 标准输入输出流 & 字符串格式化 8. traits 技术，用户自定义迭代器与算法 9. allocator ，内存管理与对象生命周期 set 和 vector 的区别 • 都是能存储一连串数据的容器。 • 区别 1 ： set 会自动给其中的元素从小到大排序，而 vector 会保持插入时的顺序。 • 区别 vector 具有 begin() 和 end() 两个成员函数，他们分别返回指向数组头部元素和尾部再之后一格元素的迭代器对象。 • vector 作为连续数组，他的迭代器基本等效于指针。 • set 也有 begin() 和 end() 函数，他返回的迭代器对象重载了 * 来访问指向的地址。迭代器的五大分类提供的运算符重载具有此迭代器的容器相应的 C++20 concept 例如， vector 和 list 都可以调用 std::find （ set 则直接提供了 find 作为成员函数，稍后讨论） set 和 vector 迭代器的不同点 • set 的迭代器对象也重载了 + + 为红黑树的遍历。 • vector 提供了 + 和 += 的重载，而 set 没有。这是因为 vector 中的元素在内存中是连续的，可以随机访问。而 set 是不连续的，所以不能随机访

0 码力 | 83 页 | 10.23 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评份，作为一个“任务”推送到全局队列里去。每个线程空闲时会不断地从那个队列里取出数据，即“认领任务”。然后执行，执行完毕后才去认领下一个任务，从而即使每个任务工作量不一也能自动适应。 • 这种技术又称为线程池（ thread pool ），避免了线程需要保存上下文的开销。但是需要我们管理一个任务队列，而且要是线程安全的队列。 struct Task { int x0, y0; 直接读写，避免了从主内存读写的超高延迟。 • 下次课会进一步深入探讨访存优化，详细剖析这个案例，那么下周六 14 点敬请期待。第 6 章：并发容器 std::vector 扩容时会移动元素 • std::vector 内部存储了一个指针，指向一段容量 capacity 大于等于其 size 的内存。 • 众所周知， push_back 会导致 size 加 1 ，但当他看到容量 capacity 等于当前 size

0 码力 | 116 页 | 15.85 MB | 1 年前
3

共 32 条前往

页

C++高性性能高性能并行编程优化课件 15 04 03 10 08 07 02 14 06

分类

语言

格式