内存块 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

JVM 内存模型

JVM 内存模型 Heap Method Area Runtime Constant Pool Thread Thread Thread PC Register JVM Stack Native Method Stack PC Register JVM Stack Native Method Stack PC Register JVM Stack Native Method

0 码力 | 1 页 | 48.42 KB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

现代 C++ 入门： RAII 内存管理 by 彭于斌（ github@archibate ）往期录播： https://space.bilibili.com/263032155 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： nv 将多个逻辑上相关的变量包装成一个类因此 C++ 的 vector 将他俩打包起来，避免程序员犯错封装：不变性比如当我要设置数组大小为 4 时，不能只 nv = 4 还要重新分配数组内存，从而修改数组起始地址 v 常遇到：当需要修改一个成员时，其他也成员需要被修改，否则出错这种情况出现时，就意味着你需要把成员变量的读写封装为成员函数不变性：请勿滥用封装 • 仅当出现“修改一个成员时，其他也成员要

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

课程 PPT 和代码： https://github.com/parallel101/course 本课涵盖：稀疏矩阵、 unordered_map 、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、 CFD 仿真、深度学习编程人员第 0 章：稀疏矩阵稠密数组存储矩阵用 foreach 包装一下枚举的过程改用 map 来存储分离 read/write/create 中存储的表项数量，从而减轻哈希的压力。但意味着键值在空间上需要具有一定的局域性，否则会浪费分块中一部分空间。然而我们这里是要用他记录粒子经过的点，因此具有一定空间局域性，能够被分块优化。实际上空间局域性正是稀疏网格能够实现的一大前提，稍后详细讨论。在 16x16 分块的基础上，只用一个 bit 存储图片解释稀疏的好处传统稠密二维数组无边界稀疏分块哈希表传统稠密二维数组无边界稀疏分块哈希表此外，还是按需分配内存，即使被写入的部分奇形怪状也不会浪费内存。这些被写入的部分被称为激活元素 (active element) ，反之则是未激活 (inactive) 。这就是稀疏的好处，按需分配，自动扩容。分块则是利用了我们存储的数据常常有着空间局域性的特点，减轻哈希表的压力，同时在每个块内部也可以快乐地 SIMD 矢量化， CPU 自动预取之类的。

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

com/parallel101/course 为什么往 int 数组里赋值 1 比赋值 0 慢一倍？第 1 章：内存带宽 cpu-bound 与 memory-bound • 通常来说，并行只能加速计算的部分，不能加速内存读写的部分。 • 因此，对 fill 这种没有任何计算量，纯粹只有访存的循环体，并行没有加速效果。称为内存瓶颈（ memory-bound ）。 • 而 sine 这种内部需要泰勒展开来计算，每次迭代计算量很大的这种内部需要泰勒展开来计算，每次迭代计算量很大的循环体，并行才有较好的加速效果。称为计算瓶颈（ cpu- bound ）。 • 并行能减轻计算瓶颈，但不减轻内存瓶颈，故后者是优化的重点。浮点加法的计算量 • 冷知识：并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 指的是分支预测是否成功。多少计算量才算多？ • 看右边的 func ，够复杂了吧？也只是勉勉强强超过一点内存的延迟了，但在 6 个物理核心上并行加速后，还是变成 mem-bound 了。

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

？我觉得应该叫 threadNum 才比较合理？ • 小彭老师也这么觉得，可能是历史遗留下来的问题，就不追究了。线程之上：板块 • CUDA 中还有一个比线程更大的概念，那就是板块（ block ），一个板块可以有多个线程组成。这就是为什么刚刚获取线程数量的变量用的是 blockDim ，实际上 blockDim 的含义是每个板块有多少个线程。 • 要指定板块的数量，只需调节三重尖括号里第一个 API 和这个很像，但毕竟没有 CUDA 可以直接在核函数里调用核函数并指定参数这么方便…… 不过，这个功能同样需要开启 CUDA_SEPARABLE_COMPILATION 。第 2 章：内存管理如何从核函数里返回数据？ • 我们试着把 kernel 的返回类型声明为 int ，试图从 GPU 返回数据到 CPU 。 • 但发现这样做会在编译期出错，为什么？ • 刚刚说了 kernel 访问，结果还是失败了。原因： GPU 使用独立的显存，不能访问 CPU 内存 • 原来， GPU 和 CPU 各自使用着独立的内存。 CPU 的内存称为主机内存 (host) 。 GPU 使用的内存称为设备内存 (device) ，他是显卡上板载的，速度更快，又称显存。 • 而不论栈还是 malloc 分配的都是 CPU 上的内存，所以自然是无法被 GPU 访问到。 • 因此可以用用 cudaMalloc

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： 12 个逻辑核心。 • 似乎这里 reduce 的加速比是逻辑核心数量，而 for 的加速比是物理核心的数量？ • 剧透：因为本例中 reduce 是内存密集型， for 是计算密集型。 • 超线程对 reduce 这种只用了简单的加法，瓶颈在内存的算法起了作用。 • 而本例中 for 部分用了 std::sin ，需要做大量数学运算，因此瓶颈在 ALU 。 • 这里卖个关子，欲知后事如何，请待下集揭晓！对于并行计算，通常都是 CPU 有几个核心就开几个线程，因为我们只要同时执行就行了嘛。 • 比如 cornell box 这个例子里，我们把图片均匀等分为四块处理。然而发现 4 号线程所在的块，由于在犄角旮旯里光线反弹的次数多，算得比其他块的慢，而有的块却算得快。但是因为木桶原理，最后花的时间由最慢的那个线程决定，因此变成 1 分 30 秒了，多出来的 30 秒里 1 号和 2 号核心在闲置着，因为任务简单已经算完了，只有

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

RAII 的安全性。 • ~vector() noexcept; vector 容器： RAII 避免内存泄露 • 如果用 new/delete 或者 malloc/free 就很容易出现忘记释放内存的情况，造成内存泄露。 • 而 vector 会在离开作用域时，自动调用解构函数，释放内存，就不必手动释放了，更安全。 https://github.com/zenustech/zeno } • 因为 } 标志着一个语句块的结束，在这里，他会调用所有身处其中的对象的解构函数。比如这里的 vector ，他的解构函数会释放动态数组的内存（即自动 delete ）。 • vector 会在退出作用域时释放内存，这时候所有指向其中元素的指针，包括 data() 都会失效。因此如果你是在语句块内获取的 data() 指针，语句块外就无法访问了。 • 可见 data() data() 指针是对 vector 的一种引用，实际对象生命周期仍由 vector 类本身管理。 vector 容器：延续生命周期 • 如果需要在一个语句块外仍然保持 data() 对数组的弱引用有效，可以把语句块内的 vector 对象移动到外面的一个 vector 对象上。 vector 在移动时指针不会失效，例如： • a = move(b) • 则会把 b 变成空数组，

0 码力 | 90 页 | 4.93 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

倍去计算的。字还被用于表示内存地址 • 字的长度除了决定一次处理的整数大小之外，还决定了能访问的内存地址的范围。 • 这是因为内存是一维排列的，假如内存容量是 65536 字节，那所谓的内存地址实际上就是一个从 0 到 65535 范围的整数，也就是两个字节组成的字。 • 处理器去读写内存的时候靠的是寄存器提供的地址，因此寄存器的大小（也就是字的大小）决定了他能读写的内存大小，例如： • 由于 65536 字节（ 64 KB ）的内存。 • 由于 32 位计算机的寄存器只能存储 32 位，他只能访问 4 GB 的内存。 • 由于 64 位计算机的寄存器能存储 64 位，他理论上能访问 16777216 TB 的内存！ • 因此，如果你的电脑内存超过了 4 GB ，那肯定是 32 位电脑不用说了。 • 而 64 位计算机理论上能访问如此大量的内存，虽然目前看来是用不到。知识拓展位的整数，实际上的内存地址并没有 64 位。 • 实际上地址的高 16 位始终和第 48 位一致（符号扩展），也就是虚拟地址空间只有 48 位。 • 而经过 MMU 映射后实际给内存的地址只有 39 位，因此如今的 x64 架构实际上只能访问 512GB 内存，如果插了超过这个大小的内存条他也不会认出来。 • 此外， 16 位计算机实际上能通过额外的段寄存器访问到 20 位的内存地址（ 1MB

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： const & 可以定义常引用：自动类型推导：函数返回引用 • 当然，函数的返回类型也可以是 auto & 或者 auto const & 。比如懒汉单例模式：理解右值：即将消失的，不长时间存在于内存中的值 • 引用又称为左值（ l-value ）。左值通常对应着一个长时间存在于内存中的变量。 • 除了左值之外，还有右值（ r-value ）。右值通常是一个表达式，代表计算过程中临时时，却出了问题： • fac 似乎变成 32764 了？ • 这是因为 [&] 捕获的是引用，是 fac 的地址，而 make_twice 已经返回了，导致 fac 的引用变成了内存中一块已经失效的地址。 • 总之，如果用 [&] ，请保证 lambda 对象的生命周期不超过他捕获的所有引用的寿命。作为返回值：解决问题 • 这时，我们可以用 [=] 来捕获，他会捕

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

表达式知多少 6. 通过实战案例来学习 STL 算法库 7. C++ 标准输入输出流 & 字符串格式化 8. traits 技术，用户自定义迭代器与算法 9. allocator ，内存管理与对象生命周期 ASCII 码第 1 章计算机如何表达字符 https://zh.wikipedia.org/wiki/ASCII 计算机如何表达字符 • 众所周知，计算机只能处理二进制有一系列成员函数，例如 find/replace/substr…… • string 可以通过 s.c_str() 重新转换回古板的 const char * 。 • string 在离开作用域时自动释放内存 (RAII) ，不用手动 free 。 C++ 字符串和 C 字符串的不同 • C 语言字符串是单独一个 char *ptr ，自动以 ‘ \0’ 结尾。 • C++ 字符串是 string 指向 ’ h’ ，只保留前三个字符 • string(“hello”, 12) 会得到 “ hello\0[ 数据删除 ]” • ↑ len 为 12 ， ptr 指向 ’ h’ ，超出了 6 个字符，内存读越界（出错） • string(“hello\0world!”, 12) 会得到 “ hello\0world!” • ↑ len 为 12 ， ptr 指向 ’ h’ ，字符串内可以包含 ‘ \0’

0 码力 | 162 页 | 40.20 MB | 1 年前
3

共 23 条前往

页

fig java memory arch pptx C++高性性能高性能并行编程优化课件 02 10 07 08 06 13 12 03 15

分类

语言

格式