C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化## AMD # 从汇编角度看编译器优化 by 彭于斌 (@archibate) 往期录播:https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码:https://github.com/parallel101/course  ## 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段,前半段主要介绍现代 C++,后半段主要介绍并行编程与优化。 1. 课程安排与开发环境搭建:cmake 与 git 入门 2. 现代 C++ 入门:常用 STL 容器,RAII 内存管理 3. 现代 C++ 进阶:模板元编程与函数式编程 4. 编译器如何自动优化:从汇编角度看 C++ 5. C++11 起的多线程编程:从 起的多线程编程:从 mutex 到无锁并行 6. 并行编程常用框架:OpenMP 与 Intel TBB 7. 被忽视的访存优化:内存带宽与 cpu 缓存机制 8. GPU 专题:wrap 调度,共享内存,barrier 9. 并行算法实战:reduce,scan,矩阵乘法等 10. 存储大规模三维数据的关键:稀疏数据结构 11. 物理仿真实战:邻居搜索表实现 pbf 流体求解 120 码力 | 108 页 | 9.47 MB | 2 年前3
2.1.5 Go语言编译器简介中国 上海 / 2020-11.21-22 Go语言编译器简介 ’ alt=‘OCR图片’/> 关于我 Contributors to golang/go · GitHub 给Go编译器提交过127个补丁,累计六万余行; 拥有Go官方git仓库提交权限; 全球贡献者排名长期处于前50名; 世界上90%的gopher都用过我写的代码; 编译器的重要性 只有1%的程序员懂汇编语言 汇编语言无法构建大型系统 汇编语言无法构建大型系统 操作系统内核也需要编译器才能运行起来 编译理论是图灵奖大户,仅次于计算复杂度理论 操作系统有后门,编译器的后门更致命 编译器的难题:任务爆炸 N种语言 * M种机器 = N*M 个任务 GOPHER CHINA 2020 中国 上海 / 2020-11.21-22 两个方案 $$ N \mathrm {种 语 言} + M \mathrm {种 机 器} = {个 任 务} $$ 其它语言 -> C -> 各个机器 各个语言 -> x86 -> 其它机器 GOPHER CHINA 2020 中国 上海 / 2020-11.21-22 通用(非专用)编译器的方案 AST = Abstract Syntax Tree抽象语法树 SSA = Single Static Assignment单静态赋值 IR = Intermediate Representation中间表示0 码力 | 36 页 | 1.63 MB | 1 月前3
KCL: Rust 在编译器领域的实践与探索## RUST CHINA CONF 2023 第三届中国Rust开发者大会 6.17-6.18 @Shanghai ## KCL: Rust 在编译器领域的实践与探索 张正 蚂蚁集团 ## 😍 01 KusionStack 与 KCL 02 用 Rust 重写 KCL 03 Rust 重写后的收益 04 更多的探索 ## 01 KusionStack 与 KCL ## KusionStack是什么 add1b5abffd9fb8525138fc88bca0/p9_2.jpg) ## 2 KCL 编译器架构升级 Python 代码翻译 Source Code Python code 栈式虚拟机 Source Code AST Bit code VM Rust 编译器 Source Code AST LLVM IR Native/WASM ## R ## 我们遇到了哪些问题? 强大的编译检查和错误处理方式,更少的 Bug 03 20 & 40 前端解析器性能提升 20倍 中端语义分析器性能提升40倍 ## 02 66% 端到端编译执行性能提升了66% ## 04 50% 语言编译器编译过程平均内存使用量变为原来 Python 版本的一半 ## Case1: 单文件编译 > https://github.com/KusionStack/kcl#showcase ## …0 码力 | 25 页 | 3.50 MB | 2 年前3
VMware vSphere:优化和扩展# vmware $ ^{®} $ EDUCATION SERVICES # VMware vSphere:优化和扩展 ## 培训方式 • 讲师指导培训 · 实时在线培训 ## 课程用时 • 为期五 (5) 天的讲师指导课堂培训 - 听课时间占 60%,动手实验时间占 40% ## 目标学员 经验丰富的系统管理员和系统集成人员 ## 课程适用对象 区管理员 □ 专家 ☒ $ ^{TM} $ 5.0 讲授。 ## 课程目标 课程结束后,您应能胜任以下工作: - 配置和管理大型成熟企业的 ESXi 网络和存储系统。 • 管理 vSphere 环境变更。 • 优化所有 vSphere 组件的性能。 ● 排除操作故障并找出造成这些故障的根本原因。 - 使用 VMware vSphere $ ^{®} $ ESXi $ ^{™} $ Shell 和 VMware 将虚拟机从标准交换机迁移到分布式交换机 - 了解分布式交换机的功能特性,例如 PVLAN、VMware vSphere $ ^{®} $ 网络 I/O 控制、端口镜像和 NetFlow ## 网络优化  • 了解网络适配器的性能特点 -0 码力 | 2 页 | 341.36 KB | 2 年前3
Greenplum上云与优化# Greenplum上云与优化 — ApsaraDB for Greenplum介绍 主办单位:Alibaba Group 阿里巴巴集团 战略合作伙伴:intel 杭州 张广舟(明虚) 阿里云高级专家 ## 目录 ApsaraDB for GP的定位 ApsaraDB for GP的内核优化 未来的规划 # ApsaraDB for GP的定位 ## ApsaraDB for GP的定位 GP的定位 GP的优势? 与其他技术的对比? 为什么上云? ## ApsaraDB for GP的定位 MPP + 列存压缩 ApsaraDB for GP = 复杂SQL + 查询优化器 本地高效存储 + 高速网络 + 预置稳定资源 = 简单、高效解决大数据分析需求 ### GP vs. RDS? MPP处理举例 ## Select count(*) from customer group [Image](/uploads/documents/f/2/6/d/f26d9043d030148cb59ffb98d820fd24/p9_3.jpg) ### GP vs. Hadoop? Orca优化器 SQL Runtime # >5-30倍的性能优势 本地存储 ### ApsaraDB for GP vs. AWS Redshift? ## “有史以来卖的最好的云服务” |对比项目|ApsaraDB0 码力 | 26 页 | 1.13 MB | 2 年前3
HBase最佳实践及优化## cloudera ## HBase最佳实践及优化 陈飚 cb@cloudera.com Cloudera ## 关于我 陈飚 Cloudera售前技术经理、资深方案架构师 http://biaobean.pro  原Intel 原Intel Hadoop发行版核心开发人员, 成功实施并运维多个上百节点Hadoop大数据集群。 – 曾在Intel编译器部门从事服务器中间件软件开发,擅长服务器软件调试与优化,与团队一起开发出世界上性能领先的XSLT语言处理器 – 2010 年后开始Hadoop 产品开发及方案顾问,先后负责Hadoop 产品化、HBase 性能调优,以及行业解决方案顾问 ## HBase的历史 HBase是Google 分布式的多层次映射表结构(key-value形式,value有多个) - 固定一个数据模型(固定数据模型能得到高性能,同时满足应用需求) - 无数据类型 ## HBase的实现特性 - 非常高的数据读写速度,为写特别优化 - 高效的随机读取 – 对于数据的某一个子集能够进行有效地扫描 - 具有容错特性,能够将数据持久化的非易失性存储中 – 使用HDFS做底层存储,可利用Hadoop的压缩Codec等减少空间占用0 码力 | 45 页 | 4.33 MB | 2 年前3
PostgreSQL 查询优化器解析0 码力 | 37 页 | 851.23 KB | 1 年前3
Oracle 和 MySQL 性能优化感悟0 码力 | 19 页 | 3.82 MB | 2 年前3
Go性能优化概览-曹春晖## GCN ## 业务性能优化概览  By Xargin 《Go 语言高级编程》合著者 Go contributor  ## 目录 优化的前置知识 ___ 01 生产环境的优化 ___ 02 Continuous profiling ___ 03 ## 第一部分 优化的前置知识 ## Latency numbers every programmer should know |Event|Latency|Scaled| |---|---|---| |1 CPU |Hardware (HW) virtualization system boot|40 s|4 millennia| |Physical system reboot|5 m|32 millennia| ## 优化的前置知识 • 要能读得懂基本的调用栈 • 了解 Go 语言内部原理(runtime,常用标准库) • 了解常见的网络协议(http、pb) https://github.com/bagder/http2-explained0 码力 | 40 页 | 8.69 MB | 2 年前3
TGT服务器的优化## TGT 服务器的优化 ## 块设备协议 • NBD • Linux专有块设备协议 • iSCSI • 广泛支持的外部设备协议(块,磁带等) ## Curve云原生存储支持块设备 • 通过NBD,只支持Linux - 通过SDK API,目前只支持Linux - PFS · 扩大使用范围 - 通过iSCSI支持更多系统,例如Windows, 类UNIX系统等,使用两项基础技术 多个target时,如果挂的设备多,一旦客户端请求量大,就会忙不过来。 • 开源界有尝试修改 - 例如sheepdog的开发者提交过一个patch,但是测试效果不理想,分析原因,event loop依然是瓶颈 ## 对TGT的性能优化 • IO是使用多个epoll线程,充分发挥多CPU能力 - 当前策略是每个target一个epoll线程,负责Initiator发过来的I/O - 好处是各target上的CPU使用由OS负责分配,CPU分配粒度更细 管理面是主线程,登录,增、删、改target, lun, session, connection, params都在主线程,而target epoll线程也要使用这些数据,多线程冲突,数据一致性问题就来了 ## 对TGT的性能优化(续) ## • 为每一个target增加一把锁 • Target event loop (TEL) 线程和管理面线程使用这把锁互斥 • TEL在运行时锁住这把锁,管理面只能等待,等TEL线程进入epoll0 码力 | 15 页 | 637.11 KB | 1 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100
相关搜索词
C++高性性能高性能并行编程优化课件04Go编译器编译器工作流程ARM64硬件除法器词法分析KCLRustKusionStack编译器LLVM IRvSphere 优化ESXivCenter ServervSphere Auto DeployvSphere Storage DRSApsaraDB for GreenplumAWS RedShiftMPP列存压缩性能优化HBaseRegionServerCompaction吞吐率GCPostgreSQL查询优化器执行计划规划阶段预处理移动APP性能监测NSURLProtocolMethod swizzlingIsa swizzlingiOSCPU占用内存占用GoroutineGC优化性能调优内存分配序列化调用栈压测指标TGT服务器块设备协议Curve云原生存储FIO性能测试













