代码块 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

CUDA 开启的 GPU 编程 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 前置条件 • 学过 C/C++ 语言编程。 • 理解 malloc/free 之类的概念。 • 熟悉 STL 中的容器、函数模板等。 CUDA 和 C++ 的关系就像 C++ 和 C 的关系一样，大部分都兼容，因此能很方便地重用 C++ 现有的任何代码库，引用 C++ 头文件等。 • host 代码和 device 代码写在同一个文件内，这是 OpenCL 做不到的。编写一段在 GPU 上运行的代码 • 定义函数 kernel ，前面加上 __global__ 修饰符，即可让他在 GPU 上执行。 • 不过调用上执行 printf 了。 • 这里的 kernel 函数在 GPU 上执行，称为核函数，用 __global__ 修饰的就是核函数。没有反应？同步一下！ • 然而如果直接编译运行刚刚那段代码，是不会打印出 Hello, world! 的。 • 这是因为 GPU 和 CPU 之间的通信，为了高效，是异步的。也就是 CPU 调用 kernel<<<1, 1>>>() 后，并不会立即在

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

深入浅出访存优化 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 为什么往 int 数组里赋值 1 比赋值 0 慢一倍？第 1 章：内存带宽 cpu-bound 与 memory-bound 内存信息查看工具： dmidecode • 可以看到小彭老师电脑上插了 2 块内存，频率都是 2667 MHz ，数据的宽度是 64 位（ 8 字节）。 • 理论极限带宽 = 频率 * 宽度 * 数量 2667*16*2=42672 MB/s • 那么，频率相同的情况下，可以考虑插两块 8GB 的内存，比插一块 16GB 的内存更快，不过价格可能还是翻倍的。 • 系统会自动在两者之间均匀分配内存，保证读写均匀分配可避免的会通过哈希函数得到随机的地址来访问，且 Value 类型可能小于 64 字节，浪费部分带宽。怎么办？解决：按 64 字节分块地随机访问 • 解决方法就是，把数据按 64 字节大小分块。随机访问时，只随机块的位置，而块的内部仍然按顺序访问。 • 可以看到 64 字节分块的效果拔群，但还是比顺序访问慢一些，为什么？明明没有浪费带宽了？缓存行预取技术：吃着一碗饭的同时，先喊妈妈烧下一碗饭 • 其实，当程序顺序访问

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

TBB 开启的并行编程之旅 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 net/weixin_42973508/article/details/111681426 详见 https://www.bilibili.com/video/BV1fa411r7zp 的 1:18:48 上一课的案例代码：基于标准库基于 TBB 的版本：任务组 • 用一个任务组 tbb::task_group 启动多个任务，一个负责下载，一个负责和用户交互。并在主线程中等待该任务组里的任务全部执行完毕。 Google benchmark • 手动计算时间差有点太硬核了，而且只运行一次的结果可能不准确，最好是多次运行取平均值才行。 • 因此可以利用谷歌提供的这个框架。 • 只需将你要测试的代码放在他的 • for (auto _: bm) • 里面即可。他会自动决定要重复多少次，保证结果是准确的，同时不浪费太多时间。运行结果刚才的 BENCHMARK_MAIN 自动生成了一个

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

从稀疏数据结构到量化数据类型 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 本课涵盖：稀疏矩阵、 unordered_map 、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、中存储的表项数量，从而减轻哈希的压力。但意味着键值在空间上需要具有一定的局域性，否则会浪费分块中一部分空间。然而我们这里是要用他记录粒子经过的点，因此具有一定空间局域性，能够被分块优化。实际上空间局域性正是稀疏网格能够实现的一大前提，稍后详细讨论。在 16x16 分块的基础上，只用一个 bit 存储图片解释稀疏的好处传统稠密二维数组无边界稀疏分块哈希表 (active element) ，反之则是未激活 (inactive) 。这就是稀疏的好处，按需分配，自动扩容。分块则是利用了我们存储的数据常常有着空间局域性的特点，减轻哈希表的压力，同时在每个块内部也可以快乐地 SIMD 矢量化， CPU 自动预取之类的。第 2 章：位运算稀疏的好处：坐标可以是负数这样即使坐标为负数，或者可以是任意大的坐标，都不会产生越界错误。但是分块存储时负数却导致出错了

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

STL 容器全解之 vector by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course C++ 标准库五大件：容器（ container ） C++ 标准库五大件：迭代器（ iterator ） C++ vector(size_t n); • 例如，要创建一个长度为 4 的 int 型数组： • vector a(4); • 之后可以通过 a.size() 获得数组的长度。 • 比如右边这段代码会得到 4 。 • size_t size() const noexcept; vector 容器： operator[] • 要访问 vector 里的元素，只需用 [] 运算符： • } • 因为 } 标志着一个语句块的结束，在这里，他会调用所有身处其中的对象的解构函数。比如这里的 vector ，他的解构函数会释放动态数组的内存（即自动 delete ）。 • vector 会在退出作用域时释放内存，这时候所有指向其中元素的指针，包括 data() 都会失效。因此如果你是在语句块内获取的 data() 指针，语句块外就无法访问了。 • 可见 data()

0 码力 | 90 页 | 4.93 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

里，这个函数只需接受他们共同的基类 IObject 作为参数，然后调用 eatFood 这个虚函数来做事（而不是直接操作具体的猫和狗本身）。 • 这样只需要写一遍 eatTwice ，就可以对猫和狗都适用，实现代码的复用（ dont-repeat-yourself ），也让函数的作者不必去关注点从猫和狗的其他具体细节，只需把握住他们统一具有的“吃”这个接口。小知识： shared_ptr 如何深拷贝？思考：能不能把拷贝构造函数也作为虚函数？ • 现在我们的需求有变，不是去对同一个对象调用两次 eatTwice ，而是先把对象复制一份拷贝，然后对对象本身和他的拷贝都调用一次 eatFood 虚函数。 • 代码如下，这要怎么个封装法呢？你可能会想，是不是可以把拷贝构造函数也声明为虚函数，这样就能实现了拷贝的多态？不行，因为 C++ 规定“构造函数不能是虚函数”。模板函数？未免有些差强人意 • 索性把 Zeno 中，我们必须有。 • 他们还有一些成员函数，这些函数可能是虚函数，也可能不是。 • 如何在不知道 OpenVDB 每个类具体继承关系的情况下，实现我们想要的继承关系，从而实现封装和代码重用？简单，只需用一种被小彭老师称为类型擦除 (type-erasure) 的大法。类型擦除：还是以猫和狗为例 • 例如右边的猫和狗类，假设这两个类是某个第三方库里写死的，这个第三方库的作者可能没

0 码力 | 54 页 | 3.94 MB | 1 年前
3
Go读书会第二期

go 社区的优秀项目和代码，看看他们怎么做的践行哲学，遵循惯例，认清本质，理解原理 Part2 – 项目基础：布局、代码风格与命名践行哲学，遵循惯例，认清本质，理解原理每个 gopher 在开启一个 go 项目时都要考虑的事情 • Go 项目布局 • 代码风格 • 命名惯例 Part3 – 语法基础：声明、类型、语句与控制结构践行哲学，遵循惯例，认清本质，理解原理 • 无类型常量与 iota 的应用 • 定义零值可用的类型 • 通过复合字面值的初始化 • 切片、字符串、 map 的原理、惯用法与坑每个 gopher 编写 Go 代码都会用到的 • Go 包导入相关 • 代码块与作用域 • 控制语句的惯用法与坑 Part4 – 语法基础：函数与方法践行哲学，遵循惯例，认清本质，理解原理 • Init 函数 • 成为“一等公民” • defer Part10 – 工程实践践行哲学，遵循惯例，认清本质，理解原理 • Go module • 自定义 go 包导入路径 • Go 命令使用（包括代码生成） • 常见的“坑” 构建、部署、代码生成、 Go“ 坑”大检阅示例代码与勘误践行哲学，遵循惯例，认清本质，理解原理 • https://github.com/bigwhite/ GoProgrammingFromBeginnerToMaster

0 码力 | 26 页 | 4.55 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

现代 CMake 进阶指南 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 为什么要学习现代 CMake ？ • 现代 CMake 指的是 CMake 3.x 。 • 古代 CMake 指的是 CMake build 目录下生成本地构建系统能识别的项目文件（ Makefile 或是 .sln ） • 第二步是 cmake --build build ，称为构建阶段（ build ），这时才实际调用编译器来编译代码 • 在配置阶段可以通过 -D 设置缓存变量。第二次配置时，之前的 -D 添加仍然会被保留。 • cmake -B build -DCMAKE_INSTALL_PREFIX=/opt/openvdb-8 为空字符串，这时相当于 Debug 。各种构建模式在编译器选项上的区别 • 在 Release 模式下，追求的是程序的最佳性能表现，在此情况下，编译器会对程序做最大的代码优化以达到最快运行速度。另一方面，由于代码优化后不与源代码一致，此模式下一般会丢失大量的调试信息。 1. Debug: `-O0 -g` 2. Release: `-O3 -DNDEBUG` 3. MinSizeRel:

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 请问下面这三段代码有什么错误？ • float x = -3.14; • printf(“%f\n”, abs(x)); • char str[10]; • scanf(“%10s” 稍后我们再来详细讲解一下指针，有时候我们需要把指针的地址值存在整型变量里。 • 而 32 位平台上的指针是 32 位， 64 位平台上的指针是 64 位。 • 所以是不是需要根据当前平台来判断要使用哪一种代码了？ • 不需要，可以用自动随系统位数变化的 intptr_t 和 uintptr_t ！ • intptr_t 在 32 位平台上等价于 int32_t ；在 64 位平台上等价于 int64_t clGetPlatformIDs ， glGetProgramInfo 等专业 API 函数刻在 DNA 里的调用方法。错误典型：返回栈上数组的地址 • 看右边这个例子，这是我在一份看起来很专业的 CFD 代码里看到的，真的泵不住了。 • int a[1024] 是一个定长数组，是在栈上分配的。而栈变量的特点是，函数 return 后就会释放掉，这时返回的指针就是指向一片已经释放内存的指针，是野指针，外面

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

现代 C++ 进阶：模板元编程 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）为什么需要模板函数（ template ） • 避免重复写代码。 • 比如，利用重载实现“将一个数乘以 2” 这个功能，需要：为什么面向对象在 HPC 不如函数式和元编程香了？这个例子要是按传统的面向对象思想，可能是这样：令 Int, Float func(int N); • 一个是模板参数，一个是函数参数，有什么区别？有很大区别！ • template 传入的 N ，是一个编译期常量，每个不同的 N ，编译器都会单独生成一份代码，从而可以对他做单独的优化。 • 而 func(int N) ，则变成运行期常量，编译器无法自动优化，只能运行时根据被调用参数 N 的不同。 • 比如 show_times<0>() 编译器就可以自动优化为一个空函数。

0 码力 | 82 页 | 12.15 MB | 1 年前
3

共 28 条前往

页

C++高性性能高性能并行编程优化课件 08 07 06 10 13 go golang 11 12 03

分类

语言

格式