字节码 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

通过实战案例来学习 STL 算法库 7. C++ 标准输入输出流 & 字符串格式化 8. traits 技术，用户自定义迭代器与算法 9. allocator ，内存管理与对象生命周期 ASCII 码第 1 章计算机如何表达字符 https://zh.wikipedia.org/wiki/ASCII 计算机如何表达字符 • 众所周知，计算机只能处理二进制整数，字符要怎么办呢？ • • 13 表示回车（‘ \r’ ） • 27 表示 ESC 键（‘ \x1b’ ） • 127 表示 DEL 键（‘ \x7f’ ）等 • 0~31 和 127 这些整数，就构成了 ASCII 码中控制字符的部分。关于控制字符的一个冷知识 • 在 Linux 命令行中启动 cat 。 • 试试按 Ctrl+R ， Ctrl+E ， Ctrl+C 等一系列组合键，看到出现了什么？ • 语言中规定字符类型为 char 类型，是个 8 位整数。 • 这是因为 ASCII 码只有 0~127 这些整数，而 8 位整数的表示范围是 2^8 也就是 0~255 ，足以表示所有 ASCII 字符了（多余的部分实际上被用于表示中文）。 • char 和整数无异，例如 ‘ a’ 实际上会被编译器翻译成他对应的 ASCII 码： 97 。写 ‘ a’ 和写 (char)97 是完全一样的，方便阅读的语法糖而已。

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

图中加法 (add) 和乘法 (mul) 都指的整数。 • 区别是浮点的乘法和加法基本是一样速度。 • L1/2/3 read 和 Main RAM read 的时间指的是读一个缓存行（ 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 指的是分支预测是否成功。 350 funcA funcB funcC 内存信息查看工具： dmidecode • 可以看到小彭老师电脑上插了 2 块内存，频率都是 2667 MHz ，数据的宽度是 64 位（ 8 字节）。 • 理论极限带宽 = 频率 * 宽度 * 数量 2667*16*2=42672 MB/s • 那么，频率相同的情况下，可以考虑插两块 8GB 的内存，比插一块 16GB 的内存更快，不过价格可能还是翻倍的。取到该地址的数据，就创建一个新条目。 • 在 x86 架构中每个条目的存储 64 字节的数据，这个条目又称之为缓存行（ cacheline ）。 • 当访问 0x0048~0x0050 这 4 个字节时，实际会导致 0x0040~0x0080 的 64 字节数据整个被读取到缓存中。 • 这就是为什么我们喜欢把数据结构的起始地址和大小对齐到 64 字节，为的是不要浪费缓存行的存储空间。缓存的工作机制：写

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

如果你没看出来（哪怕是其中一个），那就要好好上小彭老师的课哦！字节（ byte ）和位（ bit ）有什么区别 • 众所周知，计算机是二进制的，存储的实际上是一个个 0 和 1 。 • 每个存储 0 或 1 的空间称为一个位（ bit ），一位可以存储 0 或 1 两个可能的值。 • 现在的计算机都会把 8 个位打包成一个字节（ byte ），也就是说： 1 字节 = 8 位。 • 一字节可以表示 0 到 255 区间中所有的值，表示方式如下： 11111101 表示 253 11111110 表示 254 11111111 表示 255 • 字节实际上就是 C 语言中的 unsigned char 类型。表示更大范围的整数：字（ word ） • 但是单单一个字节表示的范围还是太有限了，只能表示 0 到 255 的值。 • 如何扩大表示范围？简单，用两个字节合在一起即可，例如： • 00000000-00000000 表示 0 00000000-00000001 11111111-11111110 表示 65534 11111111-11111111 表示 65535 • 这就是两个字节合成了一个字（ word ），实际上就是 C 语言里的 unsigned short 类型。不同位数的计算机，字（ word ）的大小也不一样 • 刚刚说把 2 个字节（ byte ）拼成一个字（ word ），实际上是 16 位计算机的做法。 • 16 位计算机得名就是因为他的字由

0 码力 | 128 页 | 2.95 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

自定义工作流，灵活编排发布、自主开发和对接企业内部流程和系统扫码查看飞书主干开发最佳实践灵活易用的高并发工作流 • 一键拉起环境 / 子环境 • 一键复制 / 睡眠环境 • 多环境 / 环境配置管理 • 服务编排 / 跨项目共享服务 • 开发者共享环境 - 自测子环境扫码查看 TT 语音最佳实践面向开发者的云原生环境扫码查看飞书集成测试案例 • 无缝对接主流测试框架 / 平台自动化测试效益分析高效协同的测试管理 • 一套 YAML/Chart 模板管理数百微服务 • 每个技术栈抽象一套构建模板 • 运维统一工作流规范，开发自主使用 • 跨多项目复用模板扫码查看易快报案例强大免运维的模板库 • 系统纬度：集群、项目、服务、环境、工作流 • 项目纬度：构建、测试、部署， DevOps 指标 • 迭代纬度：需求到发布效率、质量分析 • 效能度量：耗时分析、通过率统计、趋势分析微服务大规模的容器化转型，优化 & 增强 DevOps 工具链的建设典型客户：路特斯、七牛、非码、连尚、锅圈、埋堆堆、九州通研发效能提升（开发、测试、发布工程）优化加速产研流程，工程师团队级规模化协作，消除工具孤岛，系统性的提升人效典型客户：字节飞书、云器、驭势、小鹏、易快报、 MioTech 、星云有客、药师帮大规模微服务环境治理支持多分支、多业务间协作，消除环境不稳

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

• CUDA 编译器具有多段编译的特点。 • 一段代码他会先送到 CPU 上的编译器（通常是系统自带的编译器比如 gcc 和 msvc ）生成 CPU 部分的指令码。然后送到真正的 GPU 编译器生成 GPU 指令码。最后再链接成同一个文件，看起来好像只编译了一次一样，实际上你的代码会被预处理很多次。 • 他在 GPU 编译模式下会定义 __CUDA_ARCH__ 这个宏，利用，设置要针对哪个架构生成 GPU 指令码。 • 小彭老师的显卡是 RTX2080 ，他的版本号是 75 ，因此最适合他用的指令码版本是 75 。 • 如果不指定，编译器默认的版本号是 52 ，他是针对 GTX900 系列显卡的。 • 不过英伟达的架构版本都是向前兼容的，即版本号为 75 的 RTX2080 也可以运行版本号为 52 的指令码，虽然不够优化，但是至少能用。也就是要求：编译期指定的 GPU 访问到。 • 因此可以用用 cudaMalloc 分配 GPU 上的显存，这样就不出错了，结束时 cudaFree 释放。 • 注意到 cudaMalloc 的返回值已经用来表示错误代码，所以返回指针只能通过 &pret 二级指针。反之亦然， CPU 也不能访问 GPU 的内存地址 • 你可能已经迫不及待想通过 *pret 访问其返回值了。但是不行，因为 GPU 访问不了

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

(locked); 这样一个死循环不断轮询。对于我们高性能计算而言 tbb::spin_mutex 更高效。其实 sizeof(std::mutex) = 40 字节，而 sizeof(tbb::spin_mutex) = 1 字节…… 小彭老师解决：访问者模式把写入过的块地址缓存起来，可以避免多次访问全局表的开销。缓存在访问者 (accessor) 的成员 map 里。访问者对象被我用实现访问者模式 • 额，总之就是每一层都有一个缓存。第 5 章：量化整型使用 int ：每个占据 4 字节 • 记得我第七课说过，一个简单的循环体往往会导致内存成为瓶颈（ memory- bound ）。 • 右边就是一个很好的例子。使用 int64_t ：每个占据 8 字节 • 如果用更大的数据类型，用时会直接提升两倍！ • 这是因为 i % 2 的计算时间，完全隐藏在内存数据量的大小唯一决定着你的性能。 • 特别是并行以后，计算量可以被并行加速，而访存却不行。使用 int8_t ：每个占据 1 字节 • 因此我们可以把数据类型变小，这样所需的内存量就变小，从而内存带宽也可以减小！ • 对于右边这种内存瓶颈的循环体，从 4 字节的 int 改成 int8_t ，理论上可以增加 4 倍速度！ • 这就是量化数据类型的思想，把占空间大的数据类型转换成较小的（损失一定精度，换来性能）

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

的倍数？避免边界特判如果你能保证 n 总是 4 的倍数，也可以这样写：编译器会发现 n % 4 = 0 ，从而不会生成边界特判的分支。假定指针是 16 字节对齐的： assume_aligned 如果能保证指针 a 总是对齐到 16 字节，在 GCC 编译器中这样写：但这样不通用，因此 C++20 引入了标准化的 std::assume_aligned ： movups 变成了 movaps 章：结构体两个 float ：对齐到 8 字节成功 SIMD 矢量化！三个 float ：对齐到 12 字节矢量化失败，生成了标量的低效代码往 struct 里添加了个根本没有用到的 z ，却直接导致了优化失败！这是为什么？添加一个辅助对齐的变量：对齐到 16 字节追加了一个没有用的 4 字节变量，整个结构体变成 16 字节大小，矢量化反而成功了？？结论：计算机喜欢 16, 32, 64, 128... 结构体大小若不是 2 的整数幂，往往会导致 SIMD 优化失败。 C++11 新语法： alignas 在 struct 后加上 alignas( 要对齐到的字节数 ) 即可实现同样效果，就不需要手动写 padding 变量了。那是不是所有结构体打上 alignas(16) 我的程序就会变快？错了，有可能不仅不变快，反而还变慢！ SIMD 和缓存行对齐只是性能优

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

求出） • bool 类型和 char 一样只占据 1 字节（ al 寄存器就 1 字节） • 而 C 语言可以自动把 bool 转换成 int 类型（ movzx 把 1 字节的 al 转换成 4 字节的 eax ，零扩展：高 3 字节填充零） • 返回类型 int 占据 4 字节（ eax 寄存器就是 4 字节的） • 返回值都放 eax 寄存器（刚刚算得的就在 eax

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

tmp.second; • 其实，就算遍历时不修改，还是建议加引用，在 K 和 V 类型尺寸很大时，可以节省性能。 • 因为引用最多只有 8 字节（指针的大小），而他指向的 V 可能是非常大的（比如 string 类型在栈上的空间就要消耗 32 字节，更不用说可能堆上还有），深拷贝一下要花费不少时间。 • for (auto [k, v]: m) { • print(k, v); （假如非常大的话） • 其实，就算遍历时不修改，还是建议加引用，在 K 和 V 类型尺寸很大时，可以节省性能。 • 因为引用最多只有 8 字节（指针的大小），而他指向的 V 可能是非常大的（比如 string 类型在栈上的空间就要消耗 32 字节，更不用说可能堆上还有），深拷贝一下要花费不少时间。 • for (auto &[k, v]: m) { • print(k, v);

0 码力 | 90 页 | 8.76 MB | 1 年前
3
Borsh 安全高效的二进制序列化

Binary Object Representation Serializer for Hashing • 字节级别确定性 • 执行速度快 Borsh • 轻量级 • 每一个对象与其二进制表示之间都存在一个双射映射 • 不同的对象的二进制表示一定不同 • 便于基于二进制表示进行 Hash 字节级别确定性 • 在 Rust 中， borsh 并没有使用 serde • 全部逻辑原生实现 • Study Solana 智能合约 Case Study • non self-describing • 保证序列化后的二进制唯一性和确定性 • 主要序列化规则 Borsh 规范 • 整数采用低字节序（ little endian) 存储 • 对于动态长度的集合，先用一个 u32 存储集合 size • 对于原本无序的集合（如 hashmap ），存储时使用 key 的字典序排序 Borsh

0 码力 | 21 页 | 3.35 MB | 1 年前
3

共 19 条前往

页

C++高性性能高性能并行编程优化课件 15 07 12 Zadig 面向开发开发者原生 DevOps 平台 08 10 04 17 Rust Borsh

分类

语言

格式