高可用架构 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

《深入浅出MFC》2/e

体版之授权，直接等3/e 出版后再动作。没想到一拖经年，我的3/e 写作计划并没有如期完成，致使大陆读者反而没有《深入浅出MFC》2/e 简体版可看。《深入浅出MFC》3/e 没有如期完成的原因是，MFC 本体架构并没有什么大改变。《深入浅出MFC》2/e 书中所论之工具及程序代码虽采用VC5+MFC42，仍适用于目前的VC6+MFC421（唯，工具之画面或功能可能有些微变化）。由于《深入浅出MFC》2/e & MFC 4.2）侯俊傑著松崗電腦圖資料股份有限公司印行 Pioneer is the one that an arrow on his back i 读者来函新竹市. 高翠路. 刘嘉均 1996 年11 月，我在书店看到了深入浅出MFC 这本书，让我想起自己曾经暗暗告诉过自己：Application Framework 真是一个好东西。我在书店驻足察看这本书五分钟之后，我便知就会吸收很快。请问，想要从DOS 跨足到Windows 程序设计有哪些书值得推荐呢? hschin.bbs@bbs.cs.nthu.edu.tw：建议你看侯俊杰的深入浅出MFC，里面除了对窗口程序的架构作基础性的说明，让你了解一些基础概论，也说了不少窗口程序设计的课题，是非常不错的一本书。 xiii News / BBS 论坛（CompBook and/or programming）请问VISUAL

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

可见数据量较小时，实际带宽甚至超过了理论带宽极限 42672 MB/s ！ • 而数据量足够大时，才回落到正常的带宽。 • 这是为什么？ CPU 内部的高速缓存 • 原来 CPU 的厂商早就意识到了内存延迟高，读写效率低下的问题。因此他们在 CPU 内部引入了一片极小的存储器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（ cache ）。 • 当 CPU 访问某个地址时，会先查找缓存中是否有对应的 CPU 读取一个地址时： • 缓存会查找和该地址匹配的条目。如果找到，则给 CPU 返回缓存中的数据。如果找不到，则向主内存发送请求，等读取到该地址的数据，就创建一个新条目。 • 在 x86 架构中每个条目的存储 64 字节的数据，这个条目又称之为缓存行（ cacheline ）。 • 当访问 0x0048~0x0050 这 4 个字节时，实际会导致 0x0040~0x0080 的页对齐的重要性 • 为什么要 4KB ？原来现在操作系统管理内存是用分页（ page ），程序的内存是一页一页贴在地址空间中的，有些地方可能不可访问，或者还没有分配，则把这个页设为不可用状态，访问他就会出错，进入内核模式。 • 因此硬件出于安全，预取不能跨越页边界，否则可能会触发不必要的 page fault 。所以我们选用页的大小，因为本来就不能跨页顺序预取，所以被我们切断掉也无所谓。

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

，从而实现一个函数针对 GPU 和 CPU 生成两份源码级不同的代码。 __CUDA_ARCH__ 是个版本号 • 其实 __CUDA_ARCH__ 是一个整数，表示当前编译所针对的 GPU 的架构版本号是多少。这里是 520 表示版本号是 5.2.0 ，最后一位始终是 0 不用管，我们通常简称他的版本号为 52 就行了。 • 这个版本号是编译时指定的版本，不是运行时检测到的版本。编译器默认就是最老 com/cuda/cuda-compiler-driver-nvcc/index.html#extended-notation 针对不同的架构，使用不同的代码通过 CMake 设置架构版本号 • 可以用 CMAKE_CUDA_ARCHITECTURES 这个变量，设置要针对哪个架构生成 GPU 指令码。 • 小彭老师的显卡是 RTX2080 ，他的版本号是 75 ，因此最适合他用的指令码版本是 75 • 不过英伟达的架构版本都是向前兼容的，即版本号为 75 的 RTX2080 也可以运行版本号为 52 的指令码，虽然不够优化，但是至少能用。也就是要求：编译期指定的版本 ≤ 运行时显卡的版本。 CMAKE_CUDA_ARCHITECTURES 会自动转换成 --gpu-code 等编译 flag 版本号不要太新了 • 比如这里设置了 RTX3000 系列的架构版本号 86

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

Helper ），然后一个声明该类的全局变量（ helper ），就可以保证： • 1. 该类的构造函数一定在 main 之前执行 • 2. 该类的解构函数一定在 main 之后执行 • 该技巧可用于在程序退出时删除某些文件之类。 • 这就是小彭老师的静态初始化 (static-init) 大法。静态初始化用于批量注册函数 • 我们可以定义一个全局的函数表（右图中的 functab 退出时也不会调用解构函数。 • 并且即使多个线程同时调用了 func ，这个变量的初始化依然保证是原子的（ C++11 起）。 • 这就是函数静态初始化 (func-static-init) 大法。函数静态初始化可用于“懒汉单例模式” • 如右图。 • getMyClassInstance() 会在第一次调用时创建 MyClass 对象，并返回指向他的引用。 • 根据 C++ 函数静态变量初始化的规则，之后

0 码力 | 54 页 | 3.94 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

这就是，无分支优化。 • setle 指令是单独一条指令，不需要跳转。比起需要跳转的 jle 指令，他避免了 CPU 预测分支和预测失败带来的额外开销。条件跳转指令 vs 无分支指令 • x86 指令集架构中，条件跳转指令有 j 开头的一系列，无分支指令有 set 系列和 cmov 系列。 • jle .L1 上一次比较结果为小于等于时，程序跳转到 .L1 处，否则不跳转继续往下执行。 • setle char 一样只占据 1 字节（ al 寄存器就 1 字节） • 而 C 语言可以自动把 bool 转换成 int 类型（ movzx 把 1 字节的 al 转换成 4 字节的 eax ，零扩展：高 3 字节填充零） • 返回类型 int 占据 4 字节（ eax 寄存器就是 4 字节的） • 返回值都放 eax 寄存器（刚刚算得的就在 eax ，直接返回）无分支优化：从语法角度分析

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

（张心欣犯过的错）利用多线程安全的 concurrent_vector 动态追加数据基本没有加速，我猜想 concurrent_vector 内部可能用了简单粗暴的互斥量，只保证了安全，并不保证高效加速比： 1.32 倍并行筛选 2 先推到线程局部（ thread-local ）的 vector 最后一次性推入到 concurrent_vector 可以避免频繁在 concurrent_vector

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

章：汇编语言 x64 架构下的寄存器模型通用寄存器： 32 位时代 • 32 位 x86 架构中的通用寄存器有： • eax, ecx, edx, ebx, esi, edi, esp, ebp • 其中 esp 是堆栈指针寄存器，和函数的调用与返回相关。 • 其中 eax 是用于保存返回值的寄存器。通用寄存器： 64 位时代 • 64 位 x86 架构中的通用寄存器有： •

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

的生命周期，否则会出现危险的空悬指针。比如右边这样：更智能的指针： shared_ptr • 使用起来很困难的原因，在于 unique_ptr 解决重复释放的方式是禁止拷贝，这样虽然有效率高的优势，但导致使用困难，容易犯错等。 • 相比之下，牺牲效率换来自由度的 shared_ptr 则允许拷贝，他解决重复释放的方式是通过引用计数： 1. 当一个 shared_ptr 初始化时，将计数器设为

0 码力 | 96 页 | 16.28 MB | 1 年前
3

共 30 条前往

页

深入深入浅出MFC C++高性性能高性能并行编程优化课件 07 08 06 05 04 03 02

分类

语言

格式

《深入浅出MFC》2/e

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理