硬件创业公司 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 一个线程在运行。目的：异步地处理多个不同的任务，避免同步造成的阻塞。 • 并行：多核处理器，每个处理器执行一个线程，真正的同时运行。目的：将一个任务分派到多个核上，从而更快完成任务。举个例子 • 并发：某互联网公司购置了一台单核处理器的服务器，他正同时处理 4 个 HTTP 请求，如果是单线程的 listen-accept 循环，则在处理完 A 的请求之前， B 的请求就无法处理，造成“无响应”现象。个处理器都渲染完毕得到结果。 • 最后只需将 4 个小块拼接起来即可得到完整的 cornell box 图像。总共只花了 1 分钟。图形学爱好者：我看中的是多核，目的是加速比，如果是单核，那多线程对我无用！某互联网公司：我看中的是异步，目的是无阻塞，即使是单核，多线程对我也有用。因特尔开源的并行编程库： TBB https://link.springer.com/chapter/10.1007%2F978-1-4842-4398-5_2

0 码力 | 116 页 | 15.85 MB | 1 年前
3
《深入浅出MFC》2/e

于台湾出版。之所以迟迟没有授权给大陆进行简体翻译，原因我曾于回复读者的时候说过很多遍。我在此再说一次。 1998 年中，本书之发行公司松岗（UNALIS）即希望我授权简体版，然因当时我已在构思3/e，预判3/e 繁体版出版时，2/e 简体版恐怕还未能完成。老是让大陆读者慢一步看到我的书，令我至感难过，所以便请松岗公司不要进行2/e 简体版之授权，直接等3/e 出版后再动作。没想到一拖经年，我的3/e 写作计划适用于目前的VC6+MFC421（唯，工具之画面或功能可能有些微变化）。由于《深入浅出MFC》2/e 并无简体版，因此我时时收到大陆读者来信询问购买繁体版之管道。一来我不知道是否台湾出版公司有提供海外邮购或电购，二来即使有，想必带给大家很大的麻烦，三来两岸消费水平之差异带给大陆读者的负担，亦令我深感不安。 1. 这个文档是从侯捷网站提供的繁体板简体化过来的。 2. 由于排版 5.0 & MFC 4.2） Dissecting MFC （Second Edition Using Visual C++ 5.0 & MFC 4.2）侯俊傑著松崗電腦圖資料股份有限公司印行 Pioneer is the one that an arrow on his back i 读者来函新竹市. 高翠路. 刘嘉均 1996 年11 月，我在书店看到了深入浅出MFC

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
Hello 算法 1.0.0b4 C++版

示例题目等。 0. 前言 hello‑algo.com 2 Figure 0‑1. Hello 算法内容结构 0.1.3. 致谢在本书的创作过程中，我得到了许多人的帮助，包括但不限于： ‧ 感谢我在公司的导师李汐博士，在一次畅谈中您鼓励我“快行动起来”，坚定了我写这本书的决心。 ‧ 感谢我的女朋友泡泡作为本书的首位读者，从算法小白的角度提出许多宝贵建议，使得本书更适合新手阅读。 ‧ 感谢腾 B，它们都能解决同一问题，现在需要对比这两个算法的效率。我们最直接的方法就是找一台计算机，运行这两个算法，并监控记录它们的运行时间和内存占用情况。这种评估方式能够反映真实情况，但也存在较大局限性。难以排除测试环境的干扰因素。硬件配置会影响算法的性能表现。例如，在某台计算机中，算法 A 的运行时间比算法 B 短；但在另一台配置不同的计算机中，我们可能得到相反的测试结果。这意味着我们需要在各种机器上进行测试，而这是不现实的。成简单案例的复杂度分析。 2.2. 时间复杂度 2.2.1. 统计算法运行时间运行时间可以直观且准确地反映算法的效率。然而，如果我们想要准确预估一段代码的运行时间，应该如何操作呢？ 1. 确定运行平台，包括硬件配置、编程语言、系统环境等，这些因素都会影响代码的运行效率。 2. 评估各种计算操作所需的运行时间，例如加法操作 + 需要 1 ns，乘法操作 * 需要 10 ns，打印操作需要 5 ns 等。

0 码力 | 343 页 | 27.39 MB | 1 年前
3
Hello 算法 1.0.0b5 C++版

示例题目等。第 0 章前言 hello‑algo.com 3 图 0‑1 Hello 算法内容结构 0.1.3 致谢在本书的创作过程中，我得到了许多人的帮助，包括但不限于： ‧ 感谢我在公司的导师李汐博士，在一次畅谈中您鼓励我“快行动起来”，坚定了我写这本书的决心。 ‧ 感谢我的女朋友泡泡作为本书的首位读者，从算法小白的角度提出许多宝贵建议，使得本书更适合新手阅读。 ‧ 感谢腾，它们都能解决同一问题，现在需要对比这两个算法的效率。最直接的方法是找一台计算机，运行这两个算法，并监控记录它们的运行时间和内存占用情况。这种评估方式能够反映真实情况，但也存在较大局限性。一方面，难以排除测试环境的干扰因素。硬件配置会影响算法的性能表现。比如在某台计算机中，算法 A 的运行时间比算法 B 短；但在另一台配置不同的计算机中，我们可能得到相反的测试结果。这意味着我们需要在各种机器上进行测试，统计平均效率，而这是不现实的。题，因为它们非常适合用分治思想进行分析。 2.3 时间复杂度运行时间可以直观且准确地反映算法的效率。如果我们想要准确预估一段代码的运行时间，应该如何操作呢？ 1. 确定运行平台，包括硬件配置、编程语言、系统环境等，这些因素都会影响代码的运行效率。第 2 章复杂度分析 hello‑algo.com 26 2. 评估各种计算操作所需的运行时间，例如加法操作 + 需要 1 ns，乘法操作

0 码力 | 377 页 | 30.69 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

night‑cruise、nuomi1 和 Reanon 完成（按照首字母顺序排列）。感谢他们付出的时间与精力，正是他们确保了各语言代码的规范与统一。在本书的创作过程中，我得到了许多人的帮助。 ‧ 感谢我在公司的导师李汐博士，在一次畅谈中你鼓励我“快行动起来”，坚定了我写这本书的决心； ‧ 感谢我的女朋友泡泡作为本书的首位读者，从算法小白的角度提出许多宝贵建议，使得本书更适合新手阅读； ‧ 感谢腾个算法的效率。最直接的方法是找一台计算机，运行这两个算法，并监控记录它们的运行时间和内存占用情况。这种评估方式能够反映真实情况，但也存在较大的局限性。一方面，难以排除测试环境的干扰因素。硬件配置会影响算法的性能。比如在某台计算机中，算法 A 的运行时间比算法 B 短；但在另一台配置不同的计算机中，可能得到相反的测试结果。这意味着我们需要在各种机器上进行测试，统计平均效率，而这是不现实的。衡两者的优劣并根据情境选择合适的方法至关重要。 2.3 时间复杂度运行时间可以直观且准确地反映算法的效率。如果我们想准确预估一段代码的运行时间，应该如何操作呢？ 1. 确定运行平台，包括硬件配置、编程语言、系统环境等，这些因素都会影响代码的运行效率。 2. 评估各种计算操作所需的运行时间，例如加法操作 + 需要 1 ns ，乘法操作 * 需要 10 ns ，打印操作 print()

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.0.0 C++版

e、 nuomi1 和 Reanon 完成（按照首字母顺序排列）。感谢他们付出的时间与精力，正是他们确保了各语言代码的规范与统一。在本书的创作过程中，我得到了许多人的帮助。 ‧ 感谢我在公司的导师李汐博士，在一次畅谈中你鼓励我“快行动起来”，坚定了我写这本书的决心； ‧ 感谢我的女朋友泡泡作为本书的首位读者，从算法小白的角度提出许多宝贵建议，使得本书更适合新手阅读； ‧ 感谢腾个算法的效率。最直接的方法是找一台计算机，运行这两个算法，并监控记录它们的运行时间和内存占用情况。这种评估方式能够反映真实情况，但也存在较大的局限性。一方面，难以排除测试环境的干扰因素。硬件配置会影响算法的性能。比如在某台计算机中，算法 A 的运行时间比算法 B 短；但在另一台配置不同的计算机中，可能得到相反的测试结果。这意味着我们需要在各种机器上进行测试，统计平均效率，而这是不现实的。衡两者的优劣并根据情境选择合适的方法至关重要。 2.3 时间复杂度运行时间可以直观且准确地反映算法的效率。如果我们想准确预估一段代码的运行时间，应该如何操作呢？ 1. 确定运行平台，包括硬件配置、编程语言、系统环境等，这些因素都会影响代码的运行效率。 2. 评估各种计算操作所需的运行时间，例如加法操作 + 需要 1 ns ，乘法操作 * 需要 10 ns ，打印操作 print()

0 码力 | 378 页 | 17.59 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

mi1、Reanon 和 rongyi 完成（按照首字母顺序排列）。感谢他们付出的时间与精力，正是他们确保了各语言代码的规范与统一。在本书的创作过程中，我得到了许多人的帮助。 ‧ 感谢我在公司的导师李汐博士，在一次畅谈中你鼓励我“快行动起来”，坚定了我写这本书的决心； ‧ 感谢我的女朋友泡泡作为本书的首位读者，从算法小白的角度提出许多宝贵建议，使得本书更适合新手阅读； ‧ 感谢腾个算法的效率。最直接的方法是找一台计算机，运行这两个算法，并监控记录它们的运行时间和内存占用情况。这种评估方式能够反映真实情况，但也存在较大的局限性。一方面，难以排除测试环境的干扰因素。硬件配置会影响算法的性能表现。比如一个算法的并行度较高，那么它就更适合在多核 CPU 上运行，一个算法的内存操作密集，那么它在高性能内存上的表现就会更好。也就是说，算法在不同的机器上的测试结果可衡两者的优劣并根据情境选择合适的方法至关重要。 2.3 时间复杂度运行时间可以直观且准确地反映算法的效率。如果我们想准确预估一段代码的运行时间，应该如何操作呢？ 1. 确定运行平台，包括硬件配置、编程语言、系统环境等，这些因素都会影响代码的运行效率。 2. 评估各种计算操作所需的运行时间，例如加法操作 + 需要 1 ns ，乘法操作 * 需要 10 ns ，打印操作 print()

0 码力 | 379 页 | 18.48 MB | 10 月前
3
Hello 算法 1.0.0b2 C++版

0. 写在前面 hello‑algo.com 2 Figure 0‑1. Hello 算法内容结构 0.1.3. 致谢本书的成书过程中，我获得了许多人的帮助，包括但不限于： ‧ 感谢我在公司的导师李汐博士，在一次畅谈时您告诉我“觉得应该做就去做”，坚定了我写这本书的决心。 ‧ 感谢我的女朋友泡泡担任本书的首位读者，从算法小白的视角提出了许多建议，使这本书更加适合初学者来阅读。 ‧ 。我们能够想到的最直接的方式，就是找一台计算机，把两个算法都完整跑一遍，并监控记录运行时间和内存占用情况。这种评估方式能够反映真实情况，但是也存在很大的硬伤。难以排除测试环境的干扰因素。硬件配置会影响到算法的性能表现。例如，在某台计算机中，算法 A 比算法 B 运行时间更短；但换到另一台配置不同的计算机中，可能会得到相反的测试结果。这意味着我们需要在各种机器上展开测试，而这是不现实的。 2.2. 时间复杂度 2.2.1. 统计算法运行时间运行时间能够直观且准确地体现出算法的效率水平。如果我们想要准确预估一段代码的运行时间，该如何做呢？ 1. 首先需要确定运行平台，包括硬件配置、编程语言、系统环境等，这些都会影响到代码的运行效率。 2. 评估各种计算操作的所需运行时间，例如加法操作 + 需要 1 ns ，乘法操作 * 需要 10 ns ，打印操作需要 5 ns 等。

0 码力 | 197 页 | 15.72 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

处理完以后，缓存也刚好读取完 a[2] 了，从而 CPU 不用等待，就可以直接开始处理 a[2] ，避免等待数据的时候 CPU 空转浪费时间。 • 这种策略称之为预取（ prefetch ），由硬件自动识别你程序的访存规律，决定要预取的地址。一般来说只有线性的地址访问规律（包括顺序、逆序；连续、跨步）能被识别出来，而如果你的访存是随机的，那就没办法预测。遇到这种突如其来的访存时， CPU ？原来现在操作系统管理内存是用分页（ page ），程序的内存是一页一页贴在地址空间中的，有些地方可能不可访问，或者还没有分配，则把这个页设为不可用状态，访问他就会出错，进入内核模式。 • 因此硬件出于安全，预取不能跨越页边界，否则可能会触发不必要的 page fault 。所以我们选用页的大小，因为本来就不能跨页顺序预取，所以被我们切断掉也无所谓。 • 另外，我们可以用 _mm_alloc 的计算，从而只要计算的延迟小于内存的延迟，延迟就被隐藏起来了，而不必等内存抵达了再算。这就是为什么有些运算量不足 32 次的程序还是会无法达到 mem-bound ，手动预取以后才能达到，就是因为硬件预取预测失败，导致不得不等内存抵达了才能算，导致延迟隐藏失败。隐藏成功： a[0] a[1] a[2] 重新理解 mem-bound ：延迟隐藏 • 之前提到， 1 次浮点读写必须伴随着

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

）不一定就是完美解决方案，要根据实际情况判断。真正的解决： tbb::spin_mutex 其实主要的瓶颈在于 std::mutex 会切换到操作系统内核中去调度，非常低效。而 tbb::spin_mutex 则是基于硬件原子指令的，完全用户态的实现。区别： std::mutex 的陷入等待会让操作系统挂起该线程，以切换到另一个；而 tbb::spin_mutex 的陷入等待是通过不断地 while (locked); SPGrid 操作系统管理内存的最小单位：页（ 4KB ） • 当调用 malloc 时，操作系统并不会实际分配那一块内存，而是将这一段内存标记为“不可用”。当用户试图访问（写入）这一片内存时，硬件就会触发所谓的缺页中断（ page fault ），进入操作系统内核，内核会查找当前进程的 malloc 历史记录。如果发现用户写入的地址是他曾经 malloc 过的地址区间，则执行实际的内存分配，并标记该段内存为“可的，读写访问其中偏移地址时，会按页的粒度自动分配和释放内存，从而满足稀疏数据结构“按需分配”的需求。且由于分页是硬件自动来做的，比我们软件哈希和指针数组的稀疏更高效，写起来就和普通的二维数组没什么两样，就好像顺序访问。也用不着什么访问者缓存坐标和块指针了，硬件的 TLB 就是我们的访问者缓存，而且超快不需要用户自己写。 • 垃圾回收可用 madvice 提前释放一段页面。

0 码力 | 102 页 | 9.50 MB | 1 年前
3

共 21 条前往

页

C++高性性能高性能并行编程优化课件 06 深入深入浅出MFC Hello 算法 1.0 0b4 0b5 1.1 1.2 简体中文简体中文 0b2 07 10

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

《深入浅出MFC》2/e

Hello 算法 1.0.0b4 C++版

Hello 算法 1.0.0b5 C++版

Hello 算法 1.1.0 C++ 版

Hello 算法 1.0.0 C++版

Hello 算法 1.2.0 简体中文 C++ 版

Hello 算法 1.0.0b2 C++版

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型