避免手动编码 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

倍（物理核心数量）才算理想加速比。加速曲线 • funcA 用了 2 核就饱和。 • funcB 用了 4 核才饱和。 • funcC 用了 6 核才饱和。 • 结论：要想利用全部 CPU 核心，避免 mem-bound ，需要 func 里有足够的计算量。 • 当核心数量越多， CPU 计算能力越强，相对之下来不及从内存读写数据，从而越容易 mem-bound 。 1 2 4 • 因此，数据小到装的进二级缓存，则最大带宽就取决于二级缓存的带宽。稍微大一点则只能装到三级缓存，就取决于三级缓存的带宽。三级缓存也装不下，那就取决于主内存的带宽了。 • 结论：要避免 mem-bound ，数据量尽量足够小，如果能装的进缓存就高效了。 L2: 256 KB L3: 12 MB 缓存的工作机制：读 • 缓存中存储的数据结构： • struct CacheEntry 64 字节都被读取到缓存了，但实际只用到了其中 4 字节，之后又没用到剩下的 60 字节，导致浪费了 94% 的带宽。 • 虽说连续、顺序访问是最理想的，然而在使用哈希表等数据结构中，不可避免的会通过哈希函数得到随机的地址来访问，且 Value 类型可能小于 64 字节，浪费部分带宽。怎么办？解决：按 64 字节分块地随机访问 • 解决方法就是，把数据按 64 字节大小分块。随

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

find/replace/substr…… • string 可以通过 s.c_str() 重新转换回古板的 const char * 。 • string 在离开作用域时自动释放内存 (RAII) ，不用手动 free 。 C++ 字符串和 C 字符串的不同 • C 语言字符串是单独一个 char *ptr ，自动以 ‘ \0’ 结尾。 • C++ 字符串是 string 类，其成员有两个： char • 而且即使搞错了也能正常编译通过（一些高级的编译器会给出警告），但是运行结果不对，或者还有可能崩溃。泛型的 iostream 应运而生 • 得益于 C++ 的重载技术， cout 不用你手动指定类型，他会自动识别参数的类型，帮你调用相应的格式化函数。 c_str 和 data 的区别 • s.c_str() 保证返回的是以 0 结尾的字符串首地址指针，总长度为 s.size() std::string 定义很多个不同的 + 重载，每个针对不同的数字类型（ int 、 float 、 double ）排列组合，但是这样没有可扩展性，而且影响编译速度。 • 所以 cpp 说，你必须手动把 42 先转换为字符串，然后再和已有的字符串相加： • “you have ” + std::to_string(42) + “ yuan” std::to_string 数字转字符串 •

0 码力 | 162 页 | 40.20 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

自助验证更高效：自动化工作流 + 云上环境，高效验证调试安全发布有信心：一个平台完成日常 90% 工作，开发自助发布需求研发总耗时降低 30% 需求迭代周期缩短 1-5 倍解放开发，专注编码更多的架构和技术提升测试效率和质量难以平衡： • 自动化测试难以开展 • 环境不稳定并行验证效率低 • 测试多苦劳，价值难以体现测试效果提升：独立稳定环境用于测试验收、自动化建设验证有效性提升 100% 解放测试，全面自动化提升效率，建设质量体系安全安全建设被动： • 安全建设缺乏时机和抓手 • 出现问题，影响业务进度前置安全服务：全流程嵌入安全检测，避免流入业务环节。全流程安全门禁：关键环节设置安全门禁，快速反馈研发改进故障拦截率提升 1-3 倍业务响应效率提升 3-5 倍全流程安全建设更多价值体现组织靠流程和个人，效率越来越低 Rancher 上手动替换版本 3. 不透明的测试环境导致大量问题 4. 为每一次部署维护一个 Chart 版本现状效能提升场景： 2K+ 微服务、多语言、 Helm 、 K8s 多集群 1. 开发流程提交代码到 Feature 分支 -> GitLab-CI 自动构建打包 Chart （写一堆复杂的脚本） -> -> Rancher 上手动替换 Helm

0 码力 | 59 页 | 81.43 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

图分析技术分类图查询 • 使用图数据库的查询语言进行点边搜索图算法 • 中心性算法 • 社区算法 • 路径算法 • … 图深度学习 • 图嵌入 • 图卷积 • 图注意力网络 • 图自编码器图查询及其应用场景图查询 • 使用图数据库的查询语言进行点边的关联查询，可以快速完成传统数据库难以完成的多度点边关联当前图的典型应用场景路径识别群体挖掘节点识别相似节点灵活易用的开发平台 • AtlasML Python Library • 集成 Jupyter Notebook 超参数自动优化 • 支持超参数自动调优，解放算法科学家生产力，避免繁杂的手动调参海致图神经网络平台特点 Rust 语言特性助力构建高性能图数据库 01 利用 Rust Stream 进行数据流式处理 02 03 协程和严格的内存安全性，编译时捕获数据竞争和并发问题

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

令解码和指令缓存的压力等原因，出现加速超过 4 倍的情况。第 1 章：化简编译器优化：代数化简编译器优化：常量折叠编译器优化：举个例子编译器优化：我毕竟不是万能的结论：尽量避免代码复杂化，避免使用会造成 new/delete 的容器。简单的代码，比什么优化手段都强。造成 new/delete 的容器：我是说，内存分配在堆上的容器 • 存储在堆上（妨碍优化）： • vector 的函数体定义，就会自动内联内联与否和 inline 没关系，内联与否只取决于是否在同文件，且函数体够小要性能的，定义在头文件声明为 static 即可，没必要加 inline 的 static 纯粹是为了避免多个 .cpp 引用同一个头文件造成冲突，并不是必须 static 才内联如果你不确定某修改是否能提升性能，那你最好实际测一下，不要脑内模拟 inline 在现代 C++ 中有其他含义，但和内联没有关系，他是一个迷惑性的名字持的指令。老师的电脑支持 AVX 指令集，所以他用了。不过注意这样编译出的程序，可能放到别人不支持 AVX 的电脑上没法运行。数组清零：自动调用标准库的 memset memcpy 同理，不必为了高效，手动改写成对 memcpy/memset 的调用，影响可读性。编译器会自动分析你是在做拷贝或是清零，并优化成对标准库这俩的调用。从 0 到 1024 填充： SIMD 加速 paddd ：四个

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

C++ 有哪些面向对象思想？ C++ 思想：封装比如要表达一个数组，需要：起始地址指针 v ，数组大小 nv 将多个逻辑上相关的变量包装成一个类因此 C++ 的 vector 将他俩打包起来，避免程序员犯错封装：不变性比如当我要设置数组大小为 4 时，不能只 nv = 4 还要重新分配数组内存，从而修改数组起始地址 v 常遇到：当需要修改一个成员时，其他也成员需要被修改，否则出错还包括了用于销毁的解构函数（ destructor ）离开 {} 作用域自动释放手动释放 RAII ：避免犯错误与 Java ， Python 等垃圾回收语言不同， C++ 的解构函数是显式的，离开作用域自动销毁，毫不含糊（有好处也有坏处，对高性能计算而言利大于弊）如果没有解构函数，则每个带有返回的分支都要手动释放所有之前的资源 : RAII ：异常安全（ exception-safe 自定义构造函数：无参数（使用初始化表达式）为什么需要初始化表达式？ 1. 假如类成员为 const 和引用 2. 假如类成员没有无参构造函数 3. 避免重复初始化，更高效自定义构造函数：多个参数自定义构造函数：单个参数自定义构造函数：单个参数（陷阱）自定义构造函数：单个参数（避免陷阱）避免陷阱体现在哪里？ • 加了 explicit 表示必须用 () 强制转换。 • 否则 show(80) 也能编译通过！

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

cmake/ 常见误区：小彭老师，我手动添加 -std=c++17 行不行？ • 请勿直接修改 CMAKE_CXX_FLAGS 来添加 -std=c++17 （你在百度 CSDN 学到的用法）。 • 请使用 CMake 帮你封装好的 CMAKE_CXX_STANDARD （从业人员告诉你的正确用法）。 • 为什么百度不对：你 GCC 用户手动指定了 -std=c++17 ，让 MSVC 在自己的项目中，我推荐全部用对象库 (OBJECT) 替代静态库 (STATIC) 避免跨平台的麻烦。对象库仅仅作为组织代码的方式，而实际生成的可执行文件只有一个，减轻了部署的困难。静态库的麻烦： GCC 编译器自作聪明，会自动剔除没有引用符号的那些对象对象库可以绕开编译器的不统一：保证不会自动剔除没引用到的对象文件虽然动态库也可以避免剔除没引用的对象文件，但引入了运行时链接的麻烦 add_library 解决 1 ：把 dll 所在位置加到你的 PATH 环境变量里去，一劳永逸。 • 解决 2 ：把这个 dll ，以及这个 dll 所依赖的其他 dll ，全部拷贝到和 exe 文件同一目录下。手动拷贝 dll 好麻烦，能不能让 CMake 把 dll 自动生成在 exe 同一目录？ • 归根到底还是因为 CMake 把定义在顶层模块里的 main 放在 build/main.exe 。

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

位系统上就 32 位， 64 位系统上就 64 位。 Windows 认为 long 不论 32 位系统还是 64 位系统都一样应该为 32 位，认为这样安全。因此我们在编写 C 语言程序时，应该避免使用 long 类型，他会导致你的程序难以跨平台。除了 long 之外的其他类型则没有区别，可以放心使用。无符号整数： unsigned 修饰有符号版本无符号版本 char unsigned int16_t; • typedef int int32_t; • typedef long long int64_t; • 这样不论操作系统对类型的定义如何混乱，这些标准化的类型都是确定的大小。 • 这就避免了跨平台的麻烦，而且直接他们在类型名字中直接写明了类型的大小，更直观。标准化的类型： stdint.h • 除了有符号的 int32_t 系列外，也提供了无符号 uint32_t 系列： • ，四级指针 int**** ，以此类推。 • C 语言有 int* 这种指针类型， C++ 中还新增了 int& 这种引用类型。引用和指针是一样的，只是包装了一层语法糖，唯二的区别是：他不需要手动写 & 和 * 运算符；他的拷贝是导致他指向的值拷贝，而不是对门牌号的拷贝。 • 但是 C++ 的 int&& 并不是二级指针，而是右值引用，之后的课里会讲到。实验：你的电脑是大端还是小端？

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

对象移动到一个全局变量去，从而延长其生命周期到 myfunc 函数体外。 • 这样就可以等下载完再退出了。 main 函数退出后自动 join 全部线程 • 但是需要在 main 里面手动 join 全部线程还是有点麻烦，我们可以自定义一个类 ThreadPool ，并用他创建一个全局变量，其解构函数会在 main 退出后自动调用。 std::jthread ：符合 RAII ，而不涉及到真正的多线程。可以用这个实现惰性求值（ lazy evaluation ）之类。 std::async 的底层实现： std::promise • 如果不想让 std::async 帮你自动创建线程，想要手动创建线程，可以直接用 std::promise 。 • 然后在线程返回的时候，用 set_value() 设置返回值。在主线程里，用 get_future() 获取其 std::future 另一个线程解锁后，才再次上锁。 • 而调用 unlock() 则会进行解锁操作。 • 这样，就可以保证 mtx.lock() 和 mtx.unlock() 之间的代码段，同一时间只有一个线程在执行，从而避免数据竞争。通俗的说： mutex 是个厕所， A 同学在用了， B 同学就不能进去，要等 A 同学用完了才能进去。 std::lock_guard ：符合 RAII 思想的上锁和解锁 • 根据

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

既然 if-else 分支会导致分支预测的额外开销，那我想办法不用分支不就行了？ • 这就是，无分支优化。 • setle 指令是单独一条指令，不需要跳转。比起需要跳转的 jle 指令，他避免了 CPU 预测分支和预测失败带来的额外开销。条件跳转指令 vs 无分支指令 • x86 指令集架构中，条件跳转指令有 j 开头的一系列，无分支指令有 set 系列和 cmov 系列。要先用 cpuid 指令检测是否支持，如果在不支持 cmov 的 CPU 上使用会产生 SIGILL 错误。不过现在 64 位的 x86 CPU 都保证自带了 cmov 和 sse 拓展，所以不需要手动开启什么开关编译器就会自动生成利用 cmov 和 sse 指令的高效代码，这也是 x86-64 的优点之一。 https://www.felixcloutier.com/x86/cmovcc 小于（无符号） below a 大于（无符号） above e 等于 equal ne 不等于 not equal http://unixwiz.net/techtips/x86-jumps.html 手动进行无分支优化的方法无分支优化：从汇编角度分析 • 发生了什么？让我们把源码和汇编逐个对应。 • x 是第一个参数（通过 edi 传入，被存入 rbp 指向的堆栈） • 比较 x 和 0

0 码力 | 47 页 | 8.45 MB | 1 年前
3

共 24 条前往

页

C++高性性能高性能并行编程优化课件 07 15 Zadig 面向开发开发者原生 DevOps 平台游人 RustCC AtlasGraph 04 02 11 12 05

分类

语言

格式