内部事件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

《深入浅出MFC》2/e

的书都将重点放在如何使用 Microsoft Developer Studio，很少有对MFC 进行深入而有系统的讲解。而将C++ 与VC++ 相联系，从C++ 的角度来剖析MFC 的运作，深入其设计原理与内部机制的书，更是凤毛麟角。本人在市面上找了将近四个月，才发现这样的一本，这就是由蜚声海峡两岸的著名电脑专家侯俊杰先生所着之《深入浅出WINDOWS MFC 程序设计》（按：深入浅出MFC 简体版）。 bbs@firebird.cs.ccu.edu.tw：Inside Visual C++ 4.0 不是初学者用的书，因为它未从最基本观念讲起。深入浅出MFC 前半本都在描述(或说仿真) MFC 的内部技术，甚至挖出MFC 部份原始程序代码来说明，透过这本书来学MFC 会学得很扎实，不过自己要先对Windows 这个操作系统的运作方式有一程度的了解，不然会看不懂，以某方面来说，也不是初的基础架构已经完全曝露在你的掌握之中，再没有任何神秘咒语了。本书从MFC 的运用，钻入MFC 的内部运作，进而application framework 的原理，再至物件导向的精神，然后回到MFC 的运用。这会是一条迢迢远路吗？似远实近！许多朋友曾经与我讨论过，对于MFC 这类application framework，应该挖掘其内部机制到什么程度？探究源代码，岂不有违「黑盒子」初衷？但是，没有办法，他们也同意，不把那些

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

高效？既然无分支更高效，我要怎样优化才能让我的程序变成无分支的呢？那就来看本期性能优化专题课吧！分支预测成败对性能的影响排序为什么对有分支的版本影响那么大为什么需要流水线 • 为了高效， CPU 的内部其实是一个流水线 (pipeline) 。流水线的目的是能把原本串行的一系列指令并行化。为了理解为什么需要流水线，我们先反过来，假设没有流水线，会有什么坏处。 • 例如，右边你今天早上的任务清单。流水线如何应付跳转指令：分支预测 • 但是问题是烧开水被烫伤只是个小概率事件！为了这个千分之一的概率而故意等着不刷牙是否有点因噎废食？所以现在的 CPU 都有分支预测的能力。举例来说：你每天都执行刚刚说的那个“早间活动”的任务清单。你发现“如果烧开水被烫伤”这件事似乎从来没发生过，于是你渐渐意识到，被烫伤是个小概率事件，所以你“预判”到今天应该也不会发生意外，不再等待烧完开水才开始刷牙，

0 码力 | 47 页 | 8.45 MB | 1 年前
3
现代C++ 教程：高速上手C++11/14/17/20

2 ? 1 : fibonacci(n-1)+fibonacci(n-2); } 14 2.2 变量及其初始化第 2 章语言可用性的强化从 C++14 开始，constexpr 函数可以在内部使用局部变量、循环和分支等简单语句，例如下面的代码在 C++11 的标准下是不能够通过编译的： constexpr int fibonacci(const int n) { if(n == 1) 内的东西外，其他部分都很好理解，只是一般函数的函数名被略去，返回值使用了一个 -> 的形式进行（我们在上一节前面的尾返回类型已经提到过这种写法了）。所谓捕获列表，其实可以理解为参数的一种类型，Lambda 表达式内部函数体在默认情况下是不能够使用函数体外部的变量的，这时候捕获列表可以起到传递外部数据的作用。根据传递的行为，捕获列表也分为以下几种： 1. 值捕获与参数传值类似，值捕获的前提是变量可以拷贝，不同之处则在于，被捕获的变量在 temp = {1, 2, 3, 4}; return temp; } std::vector v = foo(); 在这样的代码中，就传统的理解而言，函数 foo 的返回值 temp 在内部创建然后被赋值给 v，然而 v 获得这个对象时，会将整个 temp 拷贝一份，然后把 temp 销毁，如果这个 temp 非常大，这将造成大量额外的开销（这也就是传统 C++ 一直被诟病的问题）。在最后一行中，v

0 码力 | 83 页 | 2.42 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

通常来说，并行只能加速计算的部分，不能加速内存读写的部分。 • 因此，对 fill 这种没有任何计算量，纯粹只有访存的循环体，并行没有加速效果。称为内存瓶颈（ memory-bound ）。 • 而 sine 这种内部需要泰勒展开来计算，每次迭代计算量很大的循环体，并行才有较好的加速效果。称为计算瓶颈（ cpu- bound ）。 • 并行能减轻计算瓶颈，但不减轻内存瓶颈，故后者是优化的重点。浮点加法的计算量可见数据量较小时，实际带宽甚至超过了理论带宽极限 42672 MB/s ！ • 而数据量足够大时，才回落到正常的带宽。 • 这是为什么？ CPU 内部的高速缓存 • 原来 CPU 的厂商早就意识到了内存延迟高，读写效率低下的问题。因此他们在 CPU 内部引入了一片极小的存储器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（ cache ）。 • 当 CPU 访问某个地址时，会先查找缓存中是否有对应的 MyClass 内部是 SOA ，而外部仍是一个 vector 的 AOS—— 这种内存布局称为 AOSOA 。 • 缺点是必须保证数量是 1024 的整数倍，而且因为要两次指标索引，随机访问比较烦。 • 这里的 1024 并非随意选取，而是要让每个属性 SOA 数组的大小为一个页（ 4KB ）才能最高效，原因稍后会说明。 AOSOA ：注意，内部 SOA

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

• 仅仅只是 printf 和 scanf 这些特定的函数会对 % 特殊处理而已。 • 而 \ 比较厉害，他是编译器内部专门为他“开了个后门”。 • 编译器检测到字符串中出现 \ 就会把下一个字符特殊处理。 • 而 % ，编译器并不会特殊处理 % ，是 printf 函数内部在运行时处理了 % 的下一个字符。 • % 就像你和同学随手“拉钩”定下的约定，这是 printf 约定俗成的。 • 碍了 java 进军数据处理，高性能计算等领域。 java 第八帝国 cpp 第十一共和国 chrono 和 complex 也定义了一些 literials std::literials 内部定义一览 std::literials::string_literials std::literials::chrono_literials 字符串 <--> 数字第 4 章 java 经典操作：字符串 have ” + 42.toString() + “ yuan” 。 • 但是我们说过 cpp 是不喜欢在编译器里开洞的，他的字符串类型 std::string 是在标准库里定义的，并不是在编译器内部定义的（ cpp 之父：语言本身要和标准库具体实现解耦）如果你嫌弃标准库不好用，也可以定义一个自己的字符串类型 mylib::String 重载个 + 运算符，和标准库的 std::string

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

里取出任务，以免 t1 闲置浪费时间。 • 因此内部 for 循环有可能“窃取”到另一个外部 for 循环的任务，从而导致 mutex 被重复上锁。解决 1 ：用标准库的递归锁 std::recursive_mutex 解决 2 ：创建另一个任务域，这样不同域之间就不会窃取工作解决 3 ：同一个任务域，但用 isolate 隔离，禁止其内部的工作被窃取（推荐）第 5 章：任务分配 simple_partitioner 比 auto_partitioner 快 3.31 倍原因 • tbb::simple_partitioner 能够按照给定的粒度大小（ grain ）将矩阵进行分块。块内部小区域按照常规的两层循环访问以便矢量化，块外部大区域则以类似 Z 字型的曲线遍历，这样能保证每次访问的数据在地址上比较靠近，并且都是最近访问过的，从而已经在缓存里可以直接读写，避免了从主内存读写的超高延迟。直接读写，避免了从主内存读写的超高延迟。 • 下次课会进一步深入探讨访存优化，详细剖析这个案例，那么下周六 14 点敬请期待。第 6 章：并发容器 std::vector 扩容时会移动元素 • std::vector 内部存储了一个指针，指向一段容量 capacity 大于等于其 size 的内存。 • 众所周知， push_back 会导致 size 加 1 ，但当他看到容量 capacity 等于当前 size

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

区间循环，不会越界，也不会漏掉几个元素。 • 这样一个 for 循环非常符合 CPU 上常见的 parallel for 的习惯，又能自动匹配不同的 blockDim ，看起来非常方便。从线程到板块 • 核函数内部，用之前说到的 blockDim.x + blockIdx.x + threadIdx.x 来获取线程在整个网格中编号。 • 外部调用者，则是根据不同的 n 决定板块的数量（ gridDim allocate/deallocate 成员函数的类，这样就可以“骗过” vector ，让他不是在 CPU 内存中分配，而是在 CUDA 的统一内存 (managed) 上分配。 • 实际上这种“骗”来魔改类内部行为的操作，正是现代 C++ 的 concept 思想所在。因此替换 allocator 实际上是标准库允许的，因为他提升了标准库的泛用性。进一步：避免初始化为 0 • vector 在初始化的时候（或是之后（寄存器，共享内存等）的开销，毕竟 GPU 的数据量比较大，禁不起这样切换来切换去…… • 一个 SM 可同时运行多个板块，这时多个板块共用同一块共享内存（每块分到的就少了）。 • 而板块内部的每个线程，则是被进一步调度到 SM 上的每个 SP 。无原子的解决方案： sum 变成数组 • 刚刚的数组求和例子，其实可以不需要原子操作。 • 首先，声明 sum 为比原数组小 1024

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

find 函数。 • set a = { 1, 4, 2, 8, 5, 7 }; • a.find(5); • set 之所以能够实现 O(logn) 复杂度高效查找，是因为他内部预先构建好了一棵二叉排序树。 • 如何构建的？请看动画： 1 4 2 8 5 7 待插入的数 set 查找为什么高效 • set 又称集合（数学概念），是专为查找优化的容器，查找元素要用他自带的 find 函数。 • set a = { 1, 4, 2, 8, 5, 7 }; • a.find(5); • set 之所以能够实现 O(logn) 复杂度高效查找，是因为他内部预先构建好了一棵二叉排序树。 • 如何构建的？请看动画： 1 4 2 8 5 7 1 待插入的数 4 set 查找为什么高效 • set 又称集合（数学概念），是专为查找优化的容器，查找元素要用他自带的 find 函数。 • set a = { 1, 4, 2, 8, 5, 7 }; • a.find(5); • set 之所以能够实现 O(logn) 复杂度高效查找，是因为他内部预先构建好了一棵二叉排序树。 • 如何构建的？请看动画： 1 4 2 8 5 7 1 待插入的数 2 set 查找为什么高效 • set 又称集合（数学概念），是专为查找优化的容器，查找元素要用他自带的

0 码力 | 90 页 | 8.76 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

作为模板类，其实有两个模板参数： set • 第一个 T 是容器内元素的类型，例如 int 或 string 等。 • 第二个 CompT 定义了你想要的比较函子， set 内部会调用这个函数来决定怎么排序。 • 如果 CompT 不指定，默认会直接用运算符 < 来比较。 • 这里我们定义个 MyComp 作为比较函子，和默认的一样用 < 来比较，所以没有变会把 “ arch” 和 “ any” 视为相等的元素？明明内容都不一样？ set 的排序：自定义排序函数 • 首先搞懂 set 内部是怎么确定两个元素 a 和 b 相等的： • !(a < b) && !(b < a) • 也就是说他 set 内部没有用到 == 运算符，而是调用了两次比较函子来判断的。逻辑是： • 若 a 不小于 b 且 b 不小于 a ，则视为 a 等于。虽然低效，但至少可以用了。 std::next 等价于 + • 但是这样手写三个 ++ 太麻烦了，而且是就地操作，会改变迭代器本身。 • 因此标准库提供了 std::next 函数，他的内部实现相当于这样： • 没错，他会自动判断迭代器是否支持 + 运算，如果不支持，会改为比较低效的调用 n 次 ++ 。 std::advance 等价于 += • 刚刚的 std::next

0 码力 | 83 页 | 10.23 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

lambda 的妙用 • 小彭老师小技巧： • []{ xxx; yyy; return zzz; }() • 可以在表达式层面里插入一个语句块，本质上是立即求值的 lambda 表达式（内部是分号级别，外部是逗号级别）。 • 在函数体内也可以这样： • [&]{ xxx; yyy; return zzz; }() • 来在语句块内使用外部的局部变量。带有构造函数和解构函数的类 prim 输出端口。 • （ zany 是 shared_ptr 的缩写）一个节点的定义，以 MakeBoxPrimitive 为例 MaxBoxPrimitive 节点的内部： apply 的定义通过 get_input(“name”) 获取端口名 name 上类型为 T 的对象，如果类型不是 T ，则出错。 NumericObject 的定义 • NumericObject 果输入是 float ，却调用了 get 的话，那么就相当于 vec3f(val) 也就是三个分量都是 val 的三维矢量，同样不会出错。 MaxBoxPrimitive 节点的内部： apply 的定义通过 set_output(“name”, std::move(obj)) 来指定名字为 name 的输出端口对象为 obj 。再看一个节点的定义，以 PrimitiveCalcNormal

0 码力 | 54 页 | 3.94 MB | 1 年前
3

共 22 条前往

页

深入深入浅出MFC C++高性性能高性能并行编程优化课件现代教程高速上手 11 14 17 20 07 15 06 08

分类

语言

格式

《深入浅出MFC》2/e

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

现代C++ 教程：高速上手C++11/14/17/20

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践