第七课 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

MoonBit月兔编程语言现代编程思想第七课命令式编程：命令，可变数据结构，循环

0 码力 | 23 页 | 780.46 KB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

x ， y 坐标不行吗？看右边这个例子。 • 回顾一下：我们第七课讲过， CPU 上的并行 for ，通常会做循环分块提升缓存局域性。但是如果我们是传统的两层的 for 循环就低效了，对于矩阵转置这种需要 y 方向非连续访问而言，循环分块会带来很大提升。 • 所以该怎么做才能让 GPU 也循环分块呢？第七课（访存优化）的录播可以看这里： BV1gu41117bW 经典案例：矩阵转置方向同理。经典案例： jacobi 迭代 • 相比第七课 CPU 的 ghost cell 处理方式，这里用了 std::min 和 std::max 来防止访问越界。主要是 GPU 的 SIMT 处理这个比较擅长，不像 CPU 如果这样来钳制可能导致矢量化失败。减轻 membound ：一次代替四次迭代 • 和第七课提到的循环合并法局部迭代一样的方式。 • 不过这里改用了多重网格实战 • 继续锐评黄某勋 • 感兴趣的扣 1 • OpenMP 新特性（ parallel for 之外的） • SIMD 指令全解析（ mm 开头那堆） • 内存与缓存优化进阶（第七课的延伸） • 二分查找法优化案例（针对缓存行的） • eigen 、 glm 、 vectorclass 等常用库（可能） • CPU 红黑高斯 + 多重网格实战 • 继续锐评因特尔 • 感兴趣的扣

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

firstprivate ，从而支持用 lambda 捕获的访问者模式。实现访问者模式 • 额，总之就是每一层都有一个缓存。第 5 章：量化整型使用 int ：每个占据 4 字节 • 记得我第七课说过，一个简单的循环体往往会导致内存成为瓶颈（ memory- bound ）。 • 右边就是一个很好的例子。使用 int64_t ：每个占据 8 字节 • 如果用更大的数据类型，用时会直接提升两倍！的访问者缓存，而且超快不需要用户自己写。 • 垃圾回收可用 madvice 提前释放一段页面。 • 除此之外， mmap 还有一个好处，他会保证其内存（被读取访问时）是零初始化的。配合莫顿分块， AOSOA 等第七课的技术，就得到 SPGrid(sparse-paged grid) SPGrid 还支持自适应的网格 SPGrid 的利弊 • 优点：平坦直观，适合插桩，顺序访问，自适应网格。 • 缺点：尺寸受限，操作系统挂钩，依赖

0 码力 | 102 页 | 9.50 MB | 1 年前
3

共 3 条前往

页

MoonBit 编程语言编程语言现代思想第七第七课命令命令式可变数据结构数据结构循环 C++高性性能高性能并行优化课件 08 10

分类

语言

格式

MoonBit月兔编程语言现代编程思想第七课命令式编程：命令，可变数据结构，循环

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

分类

语言

格式

MoonBit月兔编程语言 现代编程思想 第七课 命令式编程：命令，可变数据结构，循环

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

MoonBit月兔编程语言现代编程思想第七课命令式编程：命令，可变数据结构，循环