回溯法原理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

从计算机组成原理看 C 语言指针 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 请问下面这三段代码有什么错误？ • float x = -3.14; • printf(“%f\n”, abs(x)); 。 • 怎么办？可能有的同学会想，不妨这样来设计：让二进制的最高位表示符号位。 • 比如 00000011 表示 3 ， 10000011 表示 -3 ，这样不就区分开来了吗？这叫做原码表示法。 • 的确可以，这种表示方式牺牲了一位作为符号位，剩下 7 位继续表示值。 • 这样的设计下无符号可以表示 0 到 255 ，而有符号可以表示 -127 到 127 。 • 但是有一个问题，那， 11111111 表示 -128 的方法就叫做反码表示法。 • 但是这样还有一个问题，那就是硬件电路上，需要完全重新设计，对符号位做一些特殊判断，才能支持有符号整数的加减法，因此如今的计算机都采用了一种更聪明的表示法： • 他们让 11111111 表示 -1 ， 10000000 表示 -128 ，也就是大名鼎鼎的补码表示法。 • 这样做的目的是，利用加法器的“溢出”机制，例如 -1

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

章的结尾。第 6 章： thrust 库替换成 CUDA 官方提供的 thrust::universal_vector • 虽然自己实现 CudaAllocator 很有趣，也帮助我们理解了底层原理。但是既然 CUDA 官方已经提供了 thrust 库，那就用他们的好啦。 • universal_vector 会在统一内存上分配，因此不论 GPU 还是 CPU 都可以直接访问到。指令。比如这里我们通过 atomicCAS 实现了整数 atomicAdd 同样的效果。 atomicCAS ：可以实现任意原子操作 • 里面换成 expect * src ，就变成了原子乘法 atomicMul—— 虽然 CUDA 没提供，但是我们自己基于万能的 atomicCAS 实现了！ atomicCAS ：可以实现任意原子操作 • 据悉，一些老版本 CUDA 的 atomicAdd 了另一个线程才能进去，非常低效。 • 但是为什么这里用了 2^24 个元素，按理说应该卡的不行了，却还是非常快的样子？ • 那是因为 CUDA 编译器比较聪明，自动优化了……稍后会解释他优化的原理。解决：线程局部变量 • 解决方法之一就是：先累加到局部变量 local_sum ，最后一次性累加到全局的 sum 。 • 这样每个线程就只有一次原子操作，而不是网格跨步循环的那么多次原子操作了。

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

位运算 >> 对负数的处理 signed 类型的 >> n 会把最高位复制 n 次。因为补码的特性，这导致负数 >> 的结果仍是负数。这样就实现了和 Python 一样的始终向下取整除法。 >> 2 = unsigned 类型的位运算 >> 不一样而 unsigned 类型的 >> n 会不会复制最高位，只是单纯的位移，这会导致负数的符号位单独被位移，补码失效，造成结果不对。， | 替代 + 块编号直接为对齐的坐标， << 改成 & 和 ~ 自动推算 B 和 Bmask ，顺便扁平化 Block 第 3 章：多层稀疏用一个指针的数组来表示图片解释：指针数组的原理 1 nul nul 2 3 nul nul nul nul 表示 nullptr （空指针）图片解释：指针数组的稀疏这样指针表中为 null 的部分，稠密叶节点的内存就省掉这个指针数组里。因此结果不对，还造成了内存泄露。解决：使用互斥量和原子变量暴力解决方案就是用 std::mutex 避免多个线程同时访问。然而这样会严重影响性能，锁和原子多了，就根本并行不起来。教科书式的解决：二次判断法这样如果 block 已经非空，则可以不用上锁，减少上锁次数。如果 block 为空，则上锁；再次检测是否为空，空则分配内存，非空说明其他线程已经帮我分配好了，直接退出。结果反而还变慢了……所以有时候教科书（如

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

1 次浮点读写 ≈ 8 次浮点加法 • 如果矢量化成功（ SSE ）： 1 次浮点读写 ≈ 32 次浮点加法 • 如果 CPU 有 4 核且矢量化成功： 1 次浮点读写 ≈ 128 次浮点加法常见操作所花费的时间 • 图中加法 (add) 和乘法 (mul) 都指的整数。 • 区别是浮点的乘法和加法基本是一样速度。 • L1/2/3 read 和 Main RAM read 的时间指的是 com/content/www/us/en/docs/intrinsics-guide/index.html • 里面有详细说明每个指令对应的汇编，方便理解的伪代码，延迟和花费的时钟周期等。第 4 章：循环合并法两个循环体 • 原始的代码第一个循环体执行 a[i] = a[i] * 2 ，等乘法全部结束了以后，再来一个循环体执行 a[i] = a[i] + 1 。 • 因为第一遍循环过了 1GB 的数据，执行到 mem-bound 的程序而言就是加速了 2 倍。测试结果可见，能否很好的利用缓存，和程序访问内存的时间局域性有关。案例：一维 jacobi 迭代 • 一些物理仿真中，常用到这种形式的迭代法： • for (i=0...n) b[i] = a[i + 1] + a[i - 1]; // 假装是 jacobi • swap(a, b); // 交换双缓冲 • for (i=0.

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

味在吃答辩呢？要怎么传达这个信息？ C++ 一视同仁的接口就能处理这种罕见的情况，不过 Python 用一些 if 语句套一套一样可以。深入理解 Python 中 [] 能自动区分是读是写的原理 • 写入要创建元素，而读取则要在元素不存在时出错，确实应该是两个不同的函数。 • 为什么 Python 不用区分读取和写入两个函数？只有统一的 [] ？因为 Python 作为老牌胶水语言，为了的元素类型是…… • pair 。 • 可是为什么要用 const K 呢？上节课说了， set 里面的 K 不能改变！一旦改变就会破坏好不容易排好的顺序，以后再用二分法 find 就找不准了，所以 set 实际上只有 const_iterator 。 • 但是 map 只针对 K 进行排序， V 又不参与排序，完全可以随意改变。因此 C++ 之父允许 map 7 }; • std::find(a.begin(), a.end(), 5); • 这个 std::find 就是标准库帮我们实现的线性数组中查找元素的算法，让我们用动画演示一下他的工作原理吧。 1 4 2 8 5 7 内存地址 a a+1 a+2 a+3 a+4 a+5 vector 查找为什么低效 • 我们要找的数是 5 ，首先从数组第一个元素开始，判断第一个元素是否等于

0 码力 | 90 页 | 8.76 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

封装好了： tbb::parallel_sort （和标准库串行的 std::sort ）加速比： 4.80 倍重新认识改进的并行缩并 • 其实之前提到“改进后的并行缩并”，也是一种分治法的思想：大问题一分为二变成小问题，分派到各个 CPU 核心上，问题足够小时直接串行求解。 • 他也可以通过 parallel_invoke 分治来实现：第 9 章：流水线并行案例：批量处理数据 filter ）里的工作量最好足够大，否则无法掩盖调度 overhead 。总结：各种并行模式 • 从串行到并行，从来就没有什么万能膏药。 • CPU 上的并行尚且如此，何况 GPU 。 • 熟悉原理、反复实验，才能优化出好程序。 • 本课仅入门，深入可以看 Pro TBB 这本书。 • 优化重点在于程序的瓶颈部分，不用在小细节上浪费精力。如果有个 O(n²) 的循环体，则只看他，并无视一旁的

0 码力 | 116 页 | 15.85 MB | 1 年前
3
Await-Tree Async Rust 可观测性的灵丹妙药 - 赵梓淇

Await-Tree Async Rust 可观测性的灵丹妙药 Await-Tree 的设计原理与实现 2 回顾 Async Rust 的设计与痛点 1 Await-Tree 的应用与真实案例 3 Await-Tree Async Rust 可观测性的灵丹妙药 Await-Tree 的设计原理与实现 2 回顾 Async Rust 的设计与痛点 1 Await-Tree 的 • ? 如何解决？ Await-Tree Async Rust 可观测性的灵丹妙药 Await-Tree 的设计原理与实现 2 回顾 Async Rust 的设计与痛点 1 Await-Tree 的应用与真实案例 3 设计目标 Await Tree 的设计原理与实现 • 追踪关键 Future 的生命周期和控制流 • Init, First Poll, Pending, Next 基本用例 Await Tree 的设计原理与实现基本用例 Await Tree 的设计原理与实现设计细节 Await Tree 的设计原理与实现 • 充分理解 Future 生命周期中的控制流 Await Tree 的维护 Await Tree 的设计原理与实现 • 初始状态 Await Tree 的维护 Await Tree 的设计原理与实现 • Future 构造 Await

0 码力 | 37 页 | 8.60 MB | 1 年前
3
Go读书会第二期

11 月下旬初稿交付 2021 年 12 月出版《 Go 语言精进之路》导读第二部分整体写作思路异曲同工精进之路，思维先行 – part1 践行哲学，遵循惯例，认清本质，理解原理 - (part2- part10) 精进之路，思维先行异曲同工 “ 语言决定思维方式” - 萨丕尔假说 “ 我的语言之局限，即我的世界之局限” - 路德维希 · 维特根斯坦（语言哲学奠基人）码，看看他们怎么做的践行哲学，遵循惯例，认清本质，理解原理 Part2 – 项目基础：布局、代码风格与命名践行哲学，遵循惯例，认清本质，理解原理每个 gopher 在开启一个 go 项目时都要考虑的事情 • Go 项目布局 • 代码风格 • 命名惯例 Part3 – 语法基础：声明、类型、语句与控制结构践行哲学，遵循惯例，认清本质，理解原理 • 一致的变量声明形式 • 无类型常量与 • 定义零值可用的类型 • 通过复合字面值的初始化 • 切片、字符串、 map 的原理、惯用法与坑每个 gopher 编写 Go 代码都会用到的 • Go 包导入相关 • 代码块与作用域 • 控制语句的惯用法与坑 Part4 – 语法基础：函数与方法践行哲学，遵循惯例，认清本质，理解原理 • Init 函数 • 成为“一等公民” • defer 的惯用法与坑 • 变长参数函数妙用

0 码力 | 26 页 | 4.55 MB | 1 年前
3
Rust分布式账务系统 - 胡宇

Fintech 领域中的软件与互联网软件的不同需求分析支付处理： ● 转账 ● 冻资 / 解资 ● 账户限额 ● 批处理事务正确性：无双花或少付审计监管：交易日志不可篡改，交易历史可回溯条件事务：根据一定的条件决定事务执行与否高可用：在部分节点失效的情况下，依旧可以提供正确的服务超低延迟：实时交易，超低响应延迟水平扩展性：利用分布式事务实现钱包集群的的水平扩展，应对高达

0 码力 | 27 页 | 12.60 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

模仿 GLSL 语法的数学矢量 / 矩阵库 5. abseil/abseil-cpp - 旨在补充标准库没有的常用功能 6. bombela/backward-cpp - 实现了 C++ 的堆栈回溯便于调试 7. google/googletest - 谷歌单元测试框架 8. google/benchmark - 谷歌性能评估框架 9. glfw/glfw - OpenGL 窗口和上下文管理

0 码力 | 32 页 | 11.40 MB | 1 年前
3

共 25 条前往

页

C++高性性能高性能并行编程优化课件 12 08 10 07 17 06 赵梓 Await-Tree Rust go golang 胡宇 rust 分布布式分布式账务系统 01

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

Await-Tree Async Rust 可观测性的灵丹妙药 - 赵梓淇

Go读书会第二期

Rust分布式账务系统 - 胡宇

C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起