元数据管理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

现代 C++ 进阶：模板元编程 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 以上（ GPU 专题）为什么需要模板函数（ template ） • 避免重复写代码。 • 比如，利用重载实现“将一个数乘以 2” 这个功能，需要：为什么面向对象在 HPC 不如函数式和元编程香了？这个例子要是按传统的面向对象思想，可能是这样：令 Int, Float, Double 继承 Numeric 接口类并实现，其中 multiply(int) 作为虚函数。然后定义： Numeric

0 码力 | 82 页 | 12.15 MB | 1 年前
3
《深入浅出MFC》2/e

经验者，建议跟 Programming Windows 95 with MFC 一起看，学起MFC 会比较扎实。若单纯就「买了会不会后悔」来判断一本书到底好不好，这本书我觉得物超所值！内坜. 元智Richard 刚才又把深入浅出MFC step0~step1 的程序看了一次，真的感触良多。酒越陈越香，看老师您的书，真的是越看越「爽」，而且一定要晚上10:00 以后看，哇，那种感觉真是过瘾。 (*pfn)(HWND, UINT, WPARAM, LPARAM); }; #define dim(x) (sizeof(x) / sizeof(x[0])) 请注意MSGMAP_ENTRY 的第二元素pfn 是一个函数指针，我准备以此指针所指之函数处理nMessage 消息。这正是对象导向观念中把「资料」和「处理资料的方法」封装起来的一种具体实现，只不过我们用的不是C++ 语言。接下共二十来本厚薄不一的手册不可能塞到宽仅五公分的VC++ 5.0 包装盒中。所有的手册都已电子化到那片CD-ROM 去了。像我这种看书一定得拿支笔的人，没什么比这更悲哀的事。不是没有补救办法，再花个数千元就可得到VC++ 印刷手册，另一个数千元可再得到SDK 印刷手册。 MFC 执行时期所需的任何DLLs，如MFC42.DLL、ODBC DLLs、 DAO DLLs。还包括微软公司附赠的一些OCXs。第㆓篇

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
Hello 算法 1.2.0 繁体中文 C++ 版

7.1 二元樹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 7.2 二元樹走訪 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 7.3 二元樹陣列表示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 7.4 二元搜尋樹 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 7.5 AVL 樹 * . . . . . . . . . 12.2 分治搜尋策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261 12.3 構建二元樹問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 12.4 河內塔問題 . . . .

0 码力 | 379 页 | 18.79 MB | 10 月前
3
Hello 算法 1.1.0 C++ 版

例三：货币找零。假设我们在超市购买了 69 元的商品，给了收银员 100 元，则收银员需要找我们 31 元。他会很自然地完成如图 1‑3 所示的思考。 1. 可选项是比 31 元面值更小的货币，包括 1 元、5 元、10 元、20 元。 2. 从可选项中拿出最大的 20 元，剩余 31 − 20 = 11 元。 3. 从剩余可选项中拿出最大的 10 元，剩余 11 − 10 = 1 元。 4. 从剩余可选项中拿出最大的从剩余可选项中拿出最大的 1 元，剩余 1 − 1 = 0 元。 5. 完成找零，方案为 20 + 10 + 1 = 31 元。第 1 章初识算法 hello‑algo.com 13 图 1‑3 货币找零过程在以上步骤中，我们每一步都采取当前看来最好的选择（尽可能用大面额的货币），最终得到了可行的找零方案。从数据结构与算法的角度看，这种方法本质上是“贪心”算法。小到烹饪一道菜，大到星际航较大，TB 级别较小，GB 级别非常小，MB 级别速度较慢，几百到几千 MB/s 较快，几十 GB/s 非常快，几十到几百 GB/s 价格较便宜，几毛到几元 / GB 较贵，几十到几百元 / GB 非常贵，随 CPU 打包计价我们可以将计算机存储系统想象为图 4‑9 所示的金字塔结构。越靠近金字塔顶端的存储设备的速度越快、容量越小、成本越高。这种多层级的设计并非偶然，而是计算机科学家和工程师们经过深思熟虑的结果。

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

例三：货币找零。假设我们在超市购买了 69 元的商品，给了收银员 100 元，则收银员需要找我们 31 元。他会很自然地完成如图 1‑3 所示的思考。 1. 可选项是比 31 元面值更小的货币，包括 1 元、5 元、10 元、20 元。 2. 从可选项中拿出最大的 20 元，剩余 31 − 20 = 11 元。 3. 从剩余可选项中拿出最大的 10 元，剩余 11 − 10 = 1 元。 4. 从剩余可选项中拿出最大的从剩余可选项中拿出最大的 1 元，剩余 1 − 1 = 0 元。 5. 完成找零，方案为 20 + 10 + 1 = 31 元。第 1 章初识算法 www.hello‑algo.com 13 图 1‑3 货币找零过程在以上步骤中，我们每一步都采取当前看来最好的选择（尽可能用大面额的货币），最终得到了可行的找零方案。从数据结构与算法的角度看，这种方法本质上是“贪心”算法。小到烹饪一道菜，大较大，TB 级别较小，GB 级别非常小，MB 级别速度较慢，几百到几千 MB/s 较快，几十 GB/s 非常快，几十到几百 GB/s 价格较便宜，几毛到几元 / GB 较贵，几十到几百元 / GB 非常贵，随 CPU 打包计价我们可以将计算机存储系统想象为图 4‑9 所示的金字塔结构。越靠近金字塔顶端的存储设备的速度越快、容量越小、成本越高。这种多层级的设计并非偶然，而是计算机科学家和工程师们经过深思熟虑的结果。

0 码力 | 379 页 | 18.48 MB | 10 月前
3
Hello 算法 1.0.0 C++版

例三：货币找零。假设我们在超市购买了 69 元的商品，给了收银员 100 元，则收银员需要找我们 31 元。他会很自然地完成如图 1‑3 所示的思考。 1. 可选项是比 31 元面值更小的货币，包括 1 元、5 元、10 元、20 元。 2. 从可选项中拿出最大的 20 元，剩余 31 − 20 = 11 元。 3. 从剩余可选项中拿出最大的 10 元，剩余 11 − 10 = 1 元。 4. 从剩余可选项中拿出最大的从剩余可选项中拿出最大的 1 元，剩余 1 − 1 = 0 元。 5. 完成找零，方案为 20 + 10 + 1 = 31 元。第 1 章初识算法 hello‑algo.com 13 图 1‑3 货币找零过程在以上步骤中，我们每一步都采取当前看来最好的选择（尽可能用大面额的货币），最终得到了可行的找零方案。从数据结构与算法的角度看，这种方法本质上是“贪心”算法。小到烹饪一道菜，大到星际航较大，TB 级别较小，GB 级别非常小，MB 级别速度较慢，几百到几千 MB/s 较快，几十 GB/s 非常快，几十到几百 GB/s 价格较便宜，几毛到几元 / GB 较贵，几十到几百元 / GB 非常贵，随 CPU 打包计价我们可以将计算机存储系统想象为图 4‑9 所示的金字塔结构。越靠近金字塔顶端的存储设备的速度越快、容量越小、成本越高。这种多层级的设计并非偶然，而是计算机科学家和工程师们经过深思熟虑的结果。

0 码力 | 378 页 | 17.59 MB | 1 年前
3
Hello 算法 1.0.0b5 C++版

例三：货币找零。假设我们在超市购买了 69 元的商品，给了收银员 100 元，则收银员需要找我们 31 元。他会很自然地完成如图 1‑3 所示的思考。 1. 可选项是比 31 元面值更小的货币，包括 1 元、5 元、10 元、20 元。 2. 从可选项中拿出最大的 20 元，剩余 31 − 20 = 11 元。 3. 从剩余可选项中拿出最大的 10 元，剩余 11 − 10 = 1 元。 4. 从剩余可选项中拿出最大的从剩余可选项中拿出最大的 1 元，剩余 1 − 1 = 0 元。 5. 完成找零，方案为 20 + 10 + 1 = 31 元。第 1 章初识算法 hello‑algo.com 12 图 1‑3 货币找零过程在以上步骤中，我们每一步都采取当前看来最好的选择（尽可能用大面额的货币），最终得到了可行的找零方案。从数据结构与算法的角度看，这种方法本质上是“贪心”算法。小到烹饪一道菜，大到星际航也会出现很多空位，我们通常不能完全填满它们。第 4 章数组与链表 hello‑algo.com 83 � 在 Python 中初始化 n = [1, 2, 3] 后，这 3 个元素的地址是相连的，但是初始化 m = [2, 1, 3] 会发现它们每个元素的 id 并不是连续的，而是分别跟 n 中的相同。这些元素地址不连续，那么 m 还是数组吗？

0 码力 | 377 页 | 30.69 MB | 1 年前
3
Hello 算法 1.0.0b4 C++版

例三：货币找零。假设我们在超市购买了 69 元的商品，给收银员付了 100 元，则收银员需要给我们找 31 元。他会很自然地完成以下思考： 1. 可选项是比 31 元面值更小的货币，包括 1 , 5 , 10 , 20 元。 2. 从可选项中拿出最大的 20 元，剩余 31 − 20 = 11 元。 3. 从剩余可选项中拿出最大的 10 元，剩余 11 − 10 = 1 元。 4. 从剩余可选项中拿出最大的 1 元，剩余 1 1 − 1 = 0 元。 5. 完成找零，方案为 20 + 10 + 1 = 31 元。在以上步骤中，我们每一步都采取当前看来最好的选择（尽可能用大面额的货币），最终得到了可行的找零方案。从数据结构与算法的角度看，这种方法本质上是「贪心算法」。 1. 初识算法 hello‑algo.com 9 Figure 1‑3. 货币找零过程小到烹饪一道菜，大到星际航行，几乎所有问题的解决都这么多。另一方面，为了防止频繁扩容，扩容一般都会乘以一个系数，比如 ×1.5 。这样一来，也会出现很多空位，我们通常不能完全填满它们。 � 在 Python 中初始化 n = [1, 2, 3] 后，这 3 个元素的地址是相连的，但是初始化 m = [2, 1, 3] 会发现它们每个元素的 id 并不是连续的，而是分别跟 n 中的相同。这些元素地址不连续，那么 m 还是数组吗？

0 码力 | 343 页 | 27.39 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

代器，分两种情况讨论。 • 当向 set 容器添加元素成功时，该迭代器指向 set 容器新添加的元素， bool 类型的值为 true ； • 如果添加失败，即证明原 set 容器中已存有相同的元素，此时返回的迭代器就指向容器中相同的此元素，同时 bool 类型的值为 false 。 • pair insert(int val); http://c.biancheng 的作风。 • 注意： beg 必须在 end 之前，否则崩溃。 • 用法举例： a.erase(a.find(2), a.find(4)); • 会删除 set 中所有满足 2 ≤ x ＜ 4 的元素（因为 set 有自动排序的特性，所有元素都从小到大连续排列，所以删除 2 迭代器和 4 迭代器之间的元素其实就是删除 2 ≤ x ＜ 4 的元素） • iterator erase(iterator 后，违背了刚刚说的“ beg 必须在 end 之前”这一规则，会导致标准库崩溃！ • a.erase(a.find(2), a.find(4)); • 会删除 set 中所有满足 2 ≤ x ＜ 4 的元素 • 前提是 2 和 4 这两个元素在集合中存在！ • iterator find(int const &val) const; • iterator erase(iterator first

0 码力 | 83 页 | 10.23 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

组中一个元素的赋值。小技巧：网格跨步循环（ grid-stride loop ） • 无论调用者指定了多少个线程（ blockDim ），都能自动根据给定的 n 区间循环，不会越界，也不会漏掉几个元素。 • 这样一个 for 循环非常符合 CPU 上常见的 parallel for 的习惯，又能自动匹配不同的 blockDim ，看起来非常方便。从线程到板块 • 核函数内部，用之前说到的，如果不是就会漏掉最后几个元素。 • 主要是 C 语言的整数除法 n / nthreads ，他是向下取整的，比如 7 / 4 = 1 。 • 比如 n 为 65535 ，那么最后 127 个元素是没有赋值的。解决边角料难题 • 解决方法就是：采用向上取整的除法。 • 可是 C 语言好像没有向上整除的除法这个运算符？没关系，用这个式子即可： • (n + nthreads - 先把数据尺寸缩减 1024 倍到 CPU 可以接受的范围内，然后让 CPU 完成的思路。先读取到线程局部数组，然后分步缩减 • 刚刚我们直接用了一个 for 循环迭代所有 1024 个元素，实际上内部仍然是一个串行的过程，数据是强烈依赖的（ local_sum += arr[j] 可以体现出，下一时刻的 local_sum 依赖于上一时刻的 local_sum ）。 •

0 码力 | 142 页 | 13.52 MB | 1 年前
3

共 21 条前往

页

C++高性性能高性能并行编程优化课件 03 深入深入浅出MFC Hello 算法 1.2 繁体中文繁体中文 1.1 简体简体中文 1.0 0b5 0b4 14 08

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

《深入浅出MFC》2/e

Hello 算法 1.2.0 繁体中文 C++ 版

Hello 算法 1.1.0 C++ 版

Hello 算法 1.2.0 简体中文 C++ 版

Hello 算法 1.0.0 C++版

Hello 算法 1.0.0b5 C++版

Hello 算法 1.0.0b4 C++版

C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程