C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化用户) CMake 3.12 及以上(跨平台作业) Git 2.x (作业上传到 GitHub ) CUDA Toolkit 10.0 以上( GPU 专题) 第 0 章:汇编语言 x64 架构下的寄存器模型 通用寄存器: 32 位时代 • 32 位 x86 架构中的通用寄存器有: • eax, ecx, edx, ebx, esi, edi, esp, ebp • 其中 esp 是堆栈指针寄存器,和函数的调用与返回相关。 个 float 打包到一个 xmm 寄存器里同时运算,很像数学中矢量的逐元 素加法。因此 SIMD 又被称为矢量,而原始的一次只能处理 1 个 float 的方式,则称为 标量。 • 在一定条件下,编译器能够把一个处理标量 float 的代码,转换成一个利用 SIMD 指令的 ,处理矢量 float 的代码,从而增强你程序的吞吐能力! • 通常认为利用同时处理 4 个 float 的 SIMD other 给其 他文件,而且 func 也已经内联了 other , 所以编译器干脆不定义 other 了。 inline 关键字?不需要! 编译的结果完全一致? 结论:在现代编译器的高强度优化下,加不加 inline 无所谓 编译器不是傻子,只要他看得见 other 的函数体定义,就会自动内联 内联与否和 inline 没关系,内联与否只取决于是否在同文件,且函数体够小 要性能的,定义在头文件声明为0 码力 | 108 页 | 9.47 MB | 1 年前3
Zadig 面向开发者的云原生 DevOps 平台维护负担 支撑云原生构建 / 运行环境,多云异构支持及企业 级登录权限支持 传统运维管理类平台 蓝鲸 Rainbond KubeSphere KubeVela 面向资源管理的运维工具集 面向开发者,需结合 CI/CD 工具额外搭建 全流程能力 专门面向开发者的生产力平台,涵盖全流程需求到 开发,测试,运维的云原生一体化技术底座支撑 云厂商 DevOps 平台 华为云 DevCloud 用 自 动 化 的 方 式 让 大 家 测 得 更 全 面 , 把 事 情 做 的 质 量 提 高 , 提 升 了 测 试 的 覆 盖 度 。 可 以 说 , 没 有 Z a d i g , 集 成 测 试 完 全 没 法 做 ” 更多 Zadig 应用场景 Zadig 应用场景 加速云原生转型 / 容器化 / 多云迁移 微服务大规模的容器化转型,优 化 & 增强 DevOps ,精准检测资源设 备是否在线。 • 服务可以查看到关联的主机资源,支持登录主机,方便开发登录资 源设备诊断问题 • 完备的权限控制,极大降低了管理成本,实现安全风险可控。 IoT 端云混合场景:异构环境下,为开发者提供更好体验 Helm 场景接入服务 • 环境随时取用 :在 Zadig 上一键创建 dev 和 staging 环境,在不 同的集群上随时几分钟复制环境,随时满足自测需求0 码力 | 59 页 | 81.43 MB | 1 年前3
谈谈MYSQL那点事如果索引由多个字段组成将最用来查询过滤的字段放在前面 可能会有更好的性能。 可能会有更好的性能。 应用优化 应用优化 编写高效的 编写高效的 SQL SQL (一) (一) 能够快速缩小结果集的 能够快速缩小结果集的 WHERE WHERE 条件写在前面,如果有恒量条件, 条件写在前面,如果有恒量条件, 也尽量放在前面 也尽量放在前面 尽量避免使用 尽量避免使用 GROUP 尽量不用触发器,特别是在大数据表上 尽量不用触发器,特别是在大数据表上 应用优化 应用优化 编写高效的 编写高效的 SQL SQL (三) (三) 更新触发器如果不是所有情况下都需要触发,应根据业务需要加 更新触发器如果不是所有情况下都需要触发,应根据业务需要加 上必要判断条件 上必要判断条件 使用 使用 union all union all0 码力 | 38 页 | 2.04 MB | 1 年前3
Zadig 产品使用手册多服务并行部署发布,云原生构建环境和运行 环境,基础设施对接及企业级 SSO/ 权限管理 等 运维管理类平台 蓝鲸 Rainbond KubeSphere KubeVela 面向资源管理的运维工具集 面向开发者,需结合 CI/CD 工具额外 搭建全流程能力 专门面向开发者的生产力平台,涵盖需求到开 发,测试,运维的云原生一体化技术底座支撑 云厂商 DevOps 平台 华为云 DevCloud 持续部署 (CD) -> 持续运营 (CO) 质量右移 质量左移 软件研发核心工程实践:基于质量工程的持续交付体系( CI/CD 、 CO 、 CT 、 CS ) 工 程 实 践 : • 持 续 集 成 ( C I 针 对 代 码 ) • 持 续 交 付 ( C D 针 对 需 求 ) • 持 续 部 署 ( C D 针 对 服 务 ) • 持 续 测 试 ( C T 针 对 全 流 测试验证 变更发布 需求开发 提交代码及 CI 过程 1. 本地编写代码推送到远端分支 1. 本地基于 develop 分支新建分支,在新建的分支上,编写代码 2. 推送代码到自己账号下的代码库 3. GitLab 上创建 MR 2. 自动触发 CI 过程,包括单元 测试,代码风格 检查、代码扫描 。 Sprint 发布 测试验证 变更发布 产品规划 需求开发0 码力 | 52 页 | 22.95 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming分钟 屁股 为什么需要流水线 • 一些懒得动脑子的同学可能会脱口而出, 不就是 5 + 10 + 5 + 15 + 30 + 20 = 85 分 钟嘛!可以,不过这是在你每次只做一件 事的情况下,例如你烧开水时就站在旁边 干瞪眼,什么也不做,其实完全可以在烧 开水的同时洗脸刷牙呀!原始的 CPU 也 是这样, ALU 在运算的时候指令解码单元 就在旁边干瞪眼,要等 ALU 跑完写回寄 的所有指令和数据删了 (浪费了 50% 的算力)。这就是说 CPU 第一次遇见一个分支时,两个分支都会被预执行 。 • 同一段程序被多次执行后,如果每次都是分支 A ,下一次 CPU 就会总结经验,预判到下 一次应该也是分支 A ,并且把 90% 的流水线用于预先执行分支 A 的剧本, 10% 的流水 线用于预先执行分支 B 。如果预判成功,的确走了分支 A ,那么只会浪费 10% 的算力; 如果预判失败,最后走了分支 这就是,无分支优化。 • setle 指令是单独一条指令,不需要跳转。 比起需要跳转的 jle 指令,他避免了 CPU 预测分支和预测失败带来的额外开销。 条件跳转指令 vs 无分支指令 • x86 指令集架构中,条件跳转指令有 j 开头的一系列,无分支指令有 set 系列和 cmov 系列。 • jle .L1 上一次比较结果为小于等于时,程序跳转到 .L1 处,否则不跳转继续往下执行。 • setle0 码力 | 47 页 | 8.45 MB | 1 年前3
新一代分布式高性能图数据库的构建 - 沈游人科技进步奖评选中的最高级别奖项,旨在嘉奖在计 算机科学、技术或工程领域具有重要发现、发明、原始创新,在相关领域有一 定国际影响的优秀成果, AtlasGraph 的获奖证明了其技术领先性、创新性、 重要性,在自主可控浪潮下,实现了对国外产品的有效替代,防止高新技术领 域“卡脖子”现象的发生。 海致科技集团、海致星图联合清华大学研发的“ AtlasGraph 大规模图数据分析平 台”荣获中国计算机学会( CCF : 图数据建模 • 图计算引擎 • 图数据集成 • 可视化分析 • 知识图谱解决方案 • 图查询语言 • 欺诈检测 • 网络安全分析 • 社交网络分析 • BI 工具 • 图分析工具集 • 图咨询服务 Source : Graph Aware 图数据库发展趋势 AtlasGraph 研发背景 • 业务对大图分析的诉求(千亿点、万亿边) • 实时风控对图库的性能挑战( OLTP 要想让内存缓存发挥最大的作用,就要能在有限的内存中存下尽量多的图数据 • 例如,对于属性的存储,可以通过自行序列化 / 反序列化大幅节省内存 • 而自定义存储格式往往需要内存的精细操作,由于 Rust 允许在 unsafe 下访问裸指针, 可以实现零开销读取 • 将 Unsafe 包裹,对外提供足够的接口 i32 i64 u32 u32 string string 定长 变长 高可用技术方案 基于 Chain Replication0 码力 | 38 页 | 24.68 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课:字符与字符串char 在 x86 架构是有符号的 (char = signed char) ,而在 arm 架构上则认为是无符号的 (char = unsigned char) ,因为他 认为“ arm 的指令集处理无符号 8 位整数更高效”,所以擅自把 char 魔改成无 符号的…… • 顺便一提, C++ 标准保证 char , signed char , unsigned char 是三个完全 不同的类型, 了。而 rust 这种预先规定好一些后缀,就只能是他们标准库的那 个 int32 ,不能自己定义了。 • 所以 cpp 之父曾经说,他设计 cpp11 的时候,是考虑“如何在对语言本身改动最小的情况下 ,尽量只在标准库里做手脚,尽可能只利用现有的语言特性,实现 cpp 的现代化。” • 例如 shared_ptr 可以通过利用语言本身的“拷贝构造函数”实现引用计数,没必要在编译器里 开洞。但“移动语义”这个概念在旧 的十进制)。 • 注意: stoi 默认是十进制的,如果写 stoi(“7cfe”) 会得到 7 ,因为他只认识 ‘ 7’ 是数字,把 “ cfe” 看做额外字符忽略掉了(因为 c 不是十进制意义下的 数字)。 • 十六进制的字母无视大小写,例如 stoi(“7CFE”, nullptr, 16) 的也会得到 31198 。 stoi 的第三参数: base stoi 的 base 参数实战案例0 码力 | 162 页 | 40.20 MB | 1 年前3
Go读书会第二期践行哲学,遵循惯例,认清本质,理解原理 • Init 函数 • 成为“一等公民” • defer 的惯用法与坑 • 变长参数函数妙用 • 方法的本质、 receiver 参数类型选择、方法集 合 Go 程序逻辑的基本承载单元 Part5 – 语法核心:接口 践行哲学,遵循惯例,认清本质,理解原理 • 接口的内部表示 • 接口设计 • 接口与组合 接口:一切皆组合 Part60 码力 | 26 页 | 4.55 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南配置 • 子项目的 CMakeLists.txt 就干净许多,只是创建了 biology 这个静态库对象,并通过 GLOB_RECRUSE 为他批量添加 了所有位于 src 和 include 下源码和头文件。 • 根项目的 CMakeLists.txt 负责处理全局有效的设定。而子 项目的 CMakeLists.txt 则仅考虑该子项目自身的设定,比 如他的头文件目录,要链接的库等等。 biology 的 pybmain 也能够共享 根 /biology/include 这个头文件搜 索路径。 五、子项目的源文件 • 这里我们给 biology 批量添加了 src/*.cpp 下的全部源码文 件。 • 明明只有 *.cpp 需要编译,为什么还添加了 include/*.h ? 为了头文件也能被纳入 VS 的项目资源浏览器,方便编辑。 • 因为子项目的 CMakeLists 中的所有路径下查找 XXX.cmake 这个文件。 • 这样你可以在 XXX.cmake 里写一些你常用的函数,宏,变量等。 十三、你知道吗? CMake 也有 include 功能 • 和 C/C++ 的 #include 一样, CMake 也有一个 include 命令。 • 你写 include(XXX) ,则他会在 CMAKE_MODULE_PATH 这个列表 中的所有路径下查找 XXX0 码力 | 56 页 | 6.87 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化* 数量 2667*16*2=42672 MB/s • 那么,频率相同的情况下,可以考虑插两块 8GB 的内存, 比插一块 16GB 的内存更快,不过价格可能还是翻倍的。 • 系统会自动在两者之间均匀分配内存,保证读写均匀分配 到两个内存上,实现内存的并行读写,这和磁盘 RAID 有 一定相似之处。 验证一下刚刚的 parallel_add 是不是用足了全部带宽 • 刚刚 a 数组的大小是 理论带宽极限 42672 MB/s ! • 而数据量足够大时, 才回落到正常的带宽 。 • 这是为什么? CPU 内部的高速缓存 • 原来 CPU 的厂商早就意识到了内存延迟高,读写效率低 下的问题。因此他们在 CPU 内部引入了一片极小的存储 器——虽然小,但是读写速度却特别快。这片小而快的 存储器称为缓存( cache )。 • 当 CPU 访问某个地址时,会先查找缓存中是否有对应的 AOSOA :注意,内部 SOA 的尺寸不宜太小 如果内部 SOA 太小,内部循环只有 16 次连续的读 取, 16 次结束后就会跳跃一段,然后继续连续的 读取。这会导致 CPU 预取机制失效,无法预测下 一次要读哪里,等发现跳跃时已经来不及了,从而 计算的延迟无法隐藏。 如果每个属性都要访问到,那还是 AOS 比较好( AOSOA 也不赖哦) 这是因为使用 SOA 会让 CPU 不得不同时维护很多条预取赛道(0 码力 | 147 页 | 18.88 MB | 1 年前3
共 27 条
- 1
- 2
- 3













