块存储 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

第 0 章：稀疏矩阵稠密数组存储矩阵用 foreach 包装一下枚举的过程改用 map 来存储分离 read/write/create 三种访问模式 foreach 直接给出当前坐标指向的值改用 unordered_map 来存储 unordered_map 手动 read(i, j) 也一样速度索性把坐标和值打包成 tuple ，存储在 vector 按行压缩（ Compressed e91.html 第 1 章：稀疏网格稠密网格计算粒子经过的格点数量改用更小的 char 存储只用一个 bit 存储，一个 char 可以存储 8 个 bit 用 map 来存储读取：如果不存在，则读到 0 写入：如果不存在，则创建该表项用 unordered_map 来存储 map 基于红黑树，会按照键值排序，需要键值具有 operator< 重载，复杂度 O(logn) 16x16 分块存储分块能减少 unordered_map 中存储的表项数量，从而减轻哈希的压力。但意味着键值在空间上需要具有一定的局域性，否则会浪费分块中一部分空间。然而我们这里是要用他记录粒子经过的点，因此具有一定空间局域性，能够被分块优化。实际上空间局域性正是稀疏网格能够实现的一大前提，稍后详细讨论。在 16x16 分块的基础上，只用一个 bit 存储图片解释稀疏的好处

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

内存信息查看工具： dmidecode • 可以看到小彭老师电脑上插了 2 块内存，频率都是 2667 MHz ，数据的宽度是 64 位（ 8 字节）。 • 理论极限带宽 = 频率 * 宽度 * 数量 2667*16*2=42672 MB/s • 那么，频率相同的情况下，可以考虑插两块 8GB 的内存，比插一块 16GB 的内存更快，不过价格可能还是翻倍的。 • 系统会自动在两者之间均匀分配内存，保证读写均匀分配 CPU 的厂商早就意识到了内存延迟高，读写效率低下的问题。因此他们在 CPU 内部引入了一片极小的存储器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（ cache ）。 • 当 CPU 访问某个地址时，会先查找缓存中是否有对应的数据。如果没有，则从内存中读取，并存储到缓存中；如果有，则直接使用缓存中的数据。 • 这样一来，访问的数据量比较小时，就可以自动预先加宽。三级缓存也装不下，那就取决于主内存的带宽了。 • 结论：要避免 mem-bound ，数据量尽量足够小，如果能装的进缓存就高效了。 L2: 256 KB L3: 12 MB 缓存的工作机制：读 • 缓存中存储的数据结构： • struct CacheEntry { • bool valid; • uint64_t address; • char data[64]; • };

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

？我觉得应该叫 threadNum 才比较合理？ • 小彭老师也这么觉得，可能是历史遗留下来的问题，就不追究了。线程之上：板块 • CUDA 中还有一个比线程更大的概念，那就是板块（ block ），一个板块可以有多个线程组成。这就是为什么刚刚获取线程数量的变量用的是 blockDim ，实际上 blockDim 的含义是每个板块有多少个线程。 • 要指定板块的数量，只需调节三重尖括号里第一个 GPU 是由多个流式多处理器（ SM ）组成的。每个 SM 可以处理一个或多个板块。 • SM 又由多个流式单处理器（ SP ）组成。每个 SP 可以处理一个或多个线程。 • 每个 SM 都有自己的一块共享内存（ shared memory ），他的性质类似于 CPU 中的缓存——和主存相比很小，但是很快，用于缓冲临时数据。还有点特殊的性质，我们稍后会讲。 • 通常板块数量总是大于 SM 的数量，这时英伟达驱动就会在多个上，就会一直执行，直到他执行完退出，这样的好处是不存在保存和切换上下文（寄存器，共享内存等）的开销，毕竟 GPU 的数据量比较大，禁不起这样切换来切换去…… • 一个 SM 可同时运行多个板块，这时多个板块共用同一块共享内存（每块分到的就少了）。 • 而板块内部的每个线程，则是被进一步调度到 SM 上的每个 SP 。无原子的解决方案： sum 变成数组 • 刚刚的数组求和例子，其实可以不需要原子操作。

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

C++ 标准库五大件：分配器（ allocator ）侯捷 STL 侯捷 STL vector 容器 vector 容器：构造函数 • vector 的功能是长度可变的数组，他里面的数据存储在堆上。 • vector 是一个模板类，第一个模板参数是数组里元素的类型。 • 例如，声明一个元素是 int 类型的动态数组 a ： • vector a; vector 容器：构造函数和 const noexcept; vector 容器： data() 获取首地址指针 • data() 会返回指向数组中首个元素的指针，也就是等价于 &a[0] 。由于 vector 是连续存储的数组，因此只要得到了首地址，下一个元素的地址只需指针 +1 即可。 • 因为指针的 p[i] 相当于 *(p + i) ，因此可以把 data() 返回的首地址指针当一个数组来访问。 } • 因为 } 标志着一个语句块的结束，在这里，他会调用所有身处其中的对象的解构函数。比如这里的 vector ，他的解构函数会释放动态数组的内存（即自动 delete ）。 • vector 会在退出作用域时释放内存，这时候所有指向其中元素的指针，包括 data() 都会失效。因此如果你是在语句块内获取的 data() 指针，语句块外就无法访问了。 • 可见 data()

0 码力 | 90 页 | 4.93 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评对于并行计算，通常都是 CPU 有几个核心就开几个线程，因为我们只要同时执行就行了嘛。 • 比如 cornell box 这个例子里，我们把图片均匀等分为四块处理。然而发现 4 号线程所在的块，由于在犄角旮旯里光线反弹的次数多，算得比其他块的慢，而有的块却算得快。但是因为木桶原理，最后花的时间由最慢的那个线程决定，因此变成 1 分 30 秒了，多出来的 30 秒里 1 号和 2 号核心在闲置着，因为任务简单已经算完了，只有个线程，但还是把图像切分为 16 份。然后规定每一份按照 xy 轴坐标位置编号，比如 (1,3) 等。 • 把 (x,y) 那一份，分配给 (x + y * 3) % 4 号线程。这样总体来看每个线程分到的块的位置是随机的，从而由于正太分布数量越大方差越小的特点，每个线程分到的总工作量大概率是均匀的。 • GPU 上称为网格跨步循环（ grid-stride loop ）。 1 1 1 1

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

DogObject 继承自 IObject ，他们实现了 eatFood 这个虚函数，实现了多态。 • 注意这里解构函数（ ~IObject ）也需要是虚函数，否则以 IObject * 存储的指针在 delete 时只会释放 IObject 里的成员，而不会释放 CatObject 里的成员 string m_catFood 。所以这里的解构函数也是多态的，他根据类型的不同 • []{ xxx; yyy; return zzz; }() • 可以在表达式层面里插入一个语句块，本质上是立即求值的 lambda 表达式（内部是分号级别，外部是逗号级别）。 • 在函数体内也可以这样： • [&]{ xxx; yyy; return zzz; }() • 来在语句块内使用外部的局部变量。带有构造函数和解构函数的类 • 实际上，只需定义一个带有构造函数和解构函 const &desc); • 则 func(Descriptor(...)); • 与 func({...}); • 等价（ C++11 起）。 Zeno 中一切节点的基类 • 输入输出全部存储在节点的 inputs 和 outputs 成员变量上。 • inputBounds 表示他连接在哪个节点的哪个端口上，比如 {“PrimitiveCreate”, “prim”} 就表示这个端口连接了

0 码力 | 54 页 | 3.94 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评时，却出了问题： • fac 似乎变成 32764 了？ • 这是因为 [&] 捕获的是引用，是 fac 的地址，而 make_twice 已经返回了，导致 fac 的引用变成了内存中一块已经失效的地址。 • 总之，如果用 [&] ，请保证 lambda 对象的生命周期不超过他捕获的所有引用的寿命。作为返回值：解决问题 • 这时，我们可以用 [=] 来捕获，他会捕然后 Func const & 做类型。 2. lambda 作为返回值：用 auto 做类型。 3. 牺牲性能但存储方便： std::function 容器。 4. lambda 作为参数：通常用 [&] 存储引用。 5. lambda 作为返回值：总是用 [=] 存储值。 • 其实 lambda 还有更多语法，比如 mutable ， [p = std::move(p)] 等…… 常用容器：

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

如果你没看出来（哪怕是其中一个），那就要好好上小彭老师的课哦！字节（ byte ）和位（ bit ）有什么区别 • 众所周知，计算机是二进制的，存储的实际上是一个个 0 和 1 。 • 每个存储 0 或 1 的空间称为一个位（ bit ），一位可以存储 0 或 1 两个可能的值。 • 现在的计算机都会把 8 个位打包成一个字节（ byte ），也就是说： 1 字节 = 8 位。 • 一字节可以表示 = 1024 KB • 1 GB = 1024 MB • 1 TB = 1024 GB • 也有人说 1 KiB 才是 1024 B 的，但是很少有人采用这种写法…… • 在买硬盘和 u 盘等存储设备的时候，往往会出现容量减少的情况，这是因为生产厂家按照的是 1000 倍的换算的，而我们的系统中一般都是按照 1024 倍去计算的。字还被用于表示内存地址 • 字的长度除了决定一次处理大小（也就是字的大小）决定了他能读写的内存大小，例如： • 由于 16 位计算机的寄存器只能存储 16 位，他只能访问 65536 字节（ 64 KB ）的内存。 • 由于 32 位计算机的寄存器只能存储 32 位，他只能访问 4 GB 的内存。 • 由于 64 位计算机的寄存器能存储 64 位，他理论上能访问 16777216 TB 的内存！ • 因此，如果你的电脑内存超过了 4

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

计算机如何表达字符 • 众所周知，计算机只能处理二进制整数，字符要怎么办呢？ • 于是就有了 ASCII 码表，他规定，每个英文字符（包括大小写字母、数字、特殊符号）都对应着一个整数。在计算机里只要存储这个的整数，就能代表这个字符了。 • 例如 32 代表空格， 48 代表 ‘ 0’ ， 65 代表 ‘ A’ ， 97 代表 ‘ a’…… • 32~126 这些整数就用于是表示这些可显示字符和 string 其实都是胖指针。 • string 和 vector 内部都有三个成员变量： ptr, len, capacity 。 • 前两个 [ptr, len] 其实就是表示实际有效范围（存储了字符的）的胖指针。 • 而 [ptr, capacity] 就是表示实际已分配内存（操作系统认为的）的胖指针。 • struct vector { • char *ptr; • size_t string 克服了 C 语言 0 结尾字符串的缺点： • 字符串本身可以含有 ‘ \0’ 了，这下任何字符都众生平等。 • 末尾没有 ‘ \0’ 额外浪费的空间（除非调用 c_str 时）。 • 长度已经存储在 string 的成员里， size() 是 O(1) 的。 • 在尾部切片可以用 resize() 修改长度，无需写入字符串本身。 • string_view 和 span 无非是个弱引用版本，额外增加了在头部切片的能力而

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

1 章：添加源文件一个 .cpp 源文件用于测试 CMake 中添加一个可执行文件作为构建目标另一种方式：先创建目标，稍后再添加源文件如果有多个源文件呢？逐个添加即可使用变量来存储建议把头文件也加上，这样在 VS 里可以出现在“ Header Files” 一栏使用 GLOB 自动查找当前目录下指定扩展名的文件，实现批量添加源文件启用 CONFIGURE_DEPENDS 第 7 章：变量与缓存重复执行 cmake -B build 会有什么区别？可以看到第二次的输出少了很多，这是因为 CMake 第一遍需要检测编译器和 C++ 特性等比较耗时，检测完会把结果存储到缓存中，这样第二遍运行 cmake -B build 时就可以直接用缓存的值，就不需要再检测一遍了。如何清除缓存？删 build 大法了解一下然而有时候外部的情况有所更新，这时候 CMake -B build 来启动图形界面编辑各个缓存选项。 • 当然，直接用编辑器打开 build/CMakeCache.txt 修改后保存也是可以的。 • CMakeCache.txt 用文本存储数据，就是可供用户手动编辑，或是被第三方软件打开并解析的。缓存变量到底该如何更新？暴力解决：删 build 大法用万能的“删 build 大法”当然是可以的。这样重新执行的时候缓存变量不存在，

0 码力 | 166 页 | 6.54 MB | 1 年前
3

共 27 条前往

页

C++高性性能高性能并行编程优化课件 10 07 08 13 06 03 12 15 11

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南