x86 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

这就是，无分支优化。 • setle 指令是单独一条指令，不需要跳转。比起需要跳转的 jle 指令，他避免了 CPU 预测分支和预测失败带来的额外开销。条件跳转指令 vs 无分支指令 • x86 指令集架构中，条件跳转指令有 j 开头的一系列，无分支指令有 set 系列和 cmov 系列。 • jle .L1 上一次比较结果为小于等于时，程序跳转到 .L1 处，否则不跳转继续往下执行。 setle ， setge ， setl 等等。 • 冷知识： 32 位时代 cmov 系列曾经是 x86 的一个拓展特性（像 sse 一样），使用前需要先用 cpuid 指令检测是否支持，如果在不支持 cmov 的 CPU 上使用会产生 SIGILL 错误。不过现在 64 位的 x86 CPU 都保证自带了 cmov 和 sse 拓展，所以不需要手动开启什么开关编译器就会自动生成利用 cmov 指令的高效代码，这也是 x86-64 的优点之一。 https://www.felixcloutier.com/x86/cmovcc https://www.felixcloutier.com/x86/setcc https://www.felixcloutier.com/x86/jcc 条件后缀一览表后缀含义英文全称 le 小于等于（有符号） less or equal ge

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

架构下的寄存器模型通用寄存器： 32 位时代 • 32 位 x86 架构中的通用寄存器有： • eax, ecx, edx, ebx, esi, edi, esp, ebp • 其中 esp 是堆栈指针寄存器，和函数的调用与返回相关。 • 其中 eax 是用于保存返回值的寄存器。通用寄存器： 64 位时代 • 64 位 x86 架构中的通用寄存器有： • rax, rcx, rdx, rbx, rsi, rdi, rsp, rbp, r8, r9, r10, r11, ..., r15 • 其中 r8 到 r15 是 64 位 x86 新增的寄存器，给了汇编程序员更大的空间，降低了编译器处理寄存器翻车（ register spill ）的压力。 • 因此 64 位比 32 位机器相比，除了内存突破 4GB 限制外，也有一定性能优势。 8 位， 16 位， 32 位， eax = &*(rdi + rsi) 妙用本用于指针的指令，尽管此时 rdi 和 rsi 并不是指针整数加常数乘整数：都可以被优化成 leal 因为这种线性变换在地址索引中很常见，所以被 x86 做成了单独一个指令。这里尽管不是地址，但同样可以利用 lea 指令简化生成的代码大小。 eax = rdi + rsi * 8 指针访问对象：线性访问地址 rsi = (int64_t)esi

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

）就是先从低地址开始存字节的方式。比如假设 x=1 的话，那么小端字节序的存储方式是：大小端之争我们主流的硬件架构如 x86 ， ARM 都采用的小端字节序。非主流的硬件架构如 PowerPC ， MIPS 才用大端字节序。贴近底层的语言，比如 C/C++/Fortran 会采用当前硬件架构的字节序，比如在 x86 上就会变成小端字节序。 Java 这种虚拟机语言会采用大端字节序，因此在小端字节序的硬件上会比较低效，需要额外的字节序转换工作。因此，我们只需做一下这个实验，就能检测出当前电脑的架构是大端还是小端。 • 这里我们用 (char*)p 来强制转换指针类型。 • 结果显示第一个房间里的字节是 0x78 。 • 可见我们的 x86 架构是小端字节序。指针的用途举例：用于函数的多个返回值 • 我们知道函数只能有一个返回值，如果需要返回多个变量，可以用指针作为参数。 • 第一个返回值照常通过 return 返回，第二

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

这样一来，访问的数据量比较小时，就可以自动预先加载到这个更高效的缓存里，然后再开始做运算，从而避免从外部内存读写的超高延迟。缓存的分级结构查看高速缓存大小： lscpu • 可以看到我们 x86 电脑的缓存结构分为三级。 • 一级缓存分为数据缓存和指令缓存，其中数据缓存有 32 KB ， 6 个物理核心每个都有一个，总共 192 KB 。而指令缓存的大小刚好和数据缓存一样也是 192 CPU 读取一个地址时： • 缓存会查找和该地址匹配的条目。如果找到，则给 CPU 返回缓存中的数据。如果找不到，则向主内存发送请求，等读取到该地址的数据，就创建一个新条目。 • 在 x86 架构中每个条目的存储 64 字节的数据，这个条目又称之为缓存行（ cacheline ）。 • 当访问 0x0048~0x0050 这 4 个字节时，实际会导致 0x0040~0x0080 和 malloc ：只保证 16 字节对齐 • 还有 _mm_malloc(n, aalign) 可以分配对齐到任意 a 字节的内存。他在这个头文件里。是 x86 特有的，并且需要通过 _mm_free 来释放。 • 还有一个跨平台版本（比如用于 arm 架构）的 aligned_alloc(align, n) ，他也可以分配对齐到任意 a 字节的内存，通过

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

位整数，而 char 类型只需是 8 位整数即可，可以是有符号也可以是无符号，任凭编译器决定（ C 标准委员会传统异能， khronos 直呼内行）。 • 以 GCC 为例，他规定 char 在 x86 架构是有符号的 (char = signed char) ，而在 arm 架构上则认为是无符号的 (char = unsigned char) ，因为他认为“ arm 的指令集处理无符号 8 顺便一提， C++ 标准保证 char ， signed char ， unsigned char 是三个完全不同的类型， std::is_same_v 分别判断他们总会得到 false ，无论 x86 还是 arm 。 • 但是奇葩的 C 语言却规定 short ， int ， long ， long long 必须是有符号的 (int = signed int) ，反而却没有规定他们的位宽（没错， https://unicode-table.com/cn/6211/ MSVC 经典笑话：烫烫烫屯屯屯 • Windows 的 MSVC 在 Debug 模式下会默认把未初始化的栈内存填满 0xCC （ x86 的 INT3 单步中断指令），未初始化的堆内存填满 0xCD 。 • 而 0xCCCC 在 GBK 编码中就是“烫”，所以如果不小心打印了栈上未初始化的字符串数组，就会看到“烫烫烫”。 •

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

回高精度的浮点数，从而节省 4 倍内存带宽，提升 GPU 性能。有没有更小的浮点类型？ • 浮点数在接近 0 的时候精度更高，在一些图形学应用中还是很必要的（比如表示粒子的速度），定点数就做不到。 • x86 CPU 上最小的浮点类型就是 32 位的 float ，不能更小了。 • 那么有没有不用定点数就能减小浮点数占用空间的存储方式，比如 16 位浮点呢？ double: float: 更小的浮点类型： SPGrid(sparse-paged grid) SPGrid 还支持自适应的网格 SPGrid 的利弊 • 优点：平坦直观，适合插桩，顺序访问，自适应网格。 • 缺点：尺寸受限，操作系统挂钩，依赖 x86 硬件机制。 • 顺便一提， GPU 也可以搞 SPGrid ，不过 GPU 的页大小是 2MB ，王鑫磊最近研究过这个，因为太繁琐而放弃了。 http://pages.cs.wisc

0 码力 | 102 页 | 9.50 MB | 1 年前
3
Making Libraries Consumable for Non-C++ Developers

returns in caller provided memory. This is often unexpected but occurs using the MSVC compiler for x86 with stdcall (callee cleanup) or cdecl (caller cleanup). For non-MSVC, data_t is always returned in

0 码力 | 29 页 | 1.21 MB | 6 月前
3
whats new in visual studio

Chatterjee – _2 Address Sanitizer /fsanitize=address support in MSVC now generally-available • x86 and X64 support • Debug configurations (/MTd, /MDd) included • Runtime libraries automatically linked

0 码力 | 42 页 | 19.02 MB | 6 月前
3
C++20 STL Features: 1 Year of Development on GitHub

checks display the edits that clang-format wants • Building all architectures is very fast • Testing x86/x64 takes about an hour • Many tests, multiplied by many compiler configurations42 Projects • Code

0 码力 | 45 页 | 702.09 KB | 6 月前
3
新一代分布式高性能图数据库的构建 - 沈游人

元数据集群管理用户权限 GNN 应用层 Atlas 图平台 Atlas Studio Atlas Client 基础设施 Docker/K8S/VM X86/ARM - 基于 RUST 语言保证性能优势 - 分布式架构性能可线性扩展 - 针对大规模图优化的存算引擎 - 配合 Atlas 图平台，实现无代码图分析 - Query 性能分析模块，启发式提示优化

0 码力 | 38 页 | 24.68 MB | 1 年前
3

共 11 条前往

页

C++高性性能高性能并行编程优化课件 04 12 07 15 10 Making Libraries Consumable for Non Developers whats new in visual studio 20 STL Features Year of Development on GitHub 游人 RustCC AtlasGraph

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

Making Libraries Consumable for Non-C++ Developers

whats new in visual studio

C++20 STL Features: 1 Year of Development on GitHub

新一代分布式高性能图数据库的构建 - 沈游人