演讲经验 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

使用硬件加速Tokio - 戴翔

第三届中国 Rust 开发者大会使用硬件加速 Tokio 演讲人： Loong.Dai, Cathy.Lu Loong Dai • Intel 云原生工程师 • 微软 MVP • Dapr 、 Thanos 、 Golangci-lint 的 Maintainer • 现在主要专注于服务网格领域，探索云原生软硬件结合新范式 • Github ID: daixiang0 自我介绍

0 码力 | 17 页 | 1.66 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

，下一次 CPU 就会总结经验，预判到下一次应该也是分支 A ，并且把 90% 的流水线用于预先执行分支 A 的剧本， 10% 的流水线用于预先执行分支 B 。如果预判成功，的确走了分支 A ，那么只会浪费 10% 的算力；如果预判失败，最后走了分支 B ，那就不得不把预先执行分支 A 的数据全部删了，浪费 90% 的算力。这就是 CPU 的分支预测，根据历史的分支记录总结经验，不断调整两个分说他存在内存中，随时可能被改写， CPU 难以预判执行到 call [pointer] 的时候这个指针会指向哪里，无法预取。 • CPU 伺候函数指针的方法和条件跳转一样，也是根据历史记录总结经验，多次执行后 CPU 会根据之前每次跳转的地址推测下一次可能也是同样的地址，并试图预取这个地址。 • 例如：定义一个函数指针 void (*func)(int x); 则对他的调用 (*func)(42);

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

冷知识：并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 1 次浮点读写 ≈ 8 次浮点加法 • 如果矢量化成功（ SSE ）： 1 次浮点读写 ≈ 32 次浮点加法 • 如果 CPU 有 4 核且矢量化成功： 1 次浮点读写 ≈ 128 次浮点加 RAM read 的时间指的是读一个缓存行（ 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 指的是分支预测是否成功。多少计算量才算多？ • 看右边的 func ，够复杂了吧？也只是勉勉强强超过一点内存的延迟了，但在 6 个物理核心上并行加速后， cpubound 我们已经仁至义尽地尽量消除了。 • 如果单单采用手动预取，或者单单采用循环分块，那反而还会变慢。这就是性能调优中的一大难点：某个改动可能对性能没有效果，甚至反而产生负面效果。然而有经验的优化人员会知道，这不一定意味着这项改动是错的：有可能要配合多个改动一起上，才能有正面效果。 • 性能优化我们需要尝试所有的排列组合，而不能使用控制变量法，否则无法发现这种组合拳。用 stream

0 码力 | 147 页 | 18.88 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

图数据库发展趋势 AtlasGraph 研发背景 • 业务对大图分析的诉求（千亿点、万亿边） • 实时风控对图库的性能挑战（ OLTP 毫秒级响应） • 海致图平台产品服务于金融、政府行业有大量业务经验积累（接近客户需求） • 现有开源产品无法满足要求（受限于基础架构设计，优化性能有限）新一代分布式图数据库需具备的特性特性信雅达 • 高可用 • 一致性（事务） • 高性能 image / chart 团队成员来自清华、北大、人大、北邮等高校，对图技术、存储技术充满热爱 Young 、 Passion 、 Techie About team 6 年 Rust 开发经验、用 Rust 写过操作系统（ Occlum ）、编译器（ Rustc ），现在在用 Rust 写数据库系统（ AtlasGraph ） About me About US shenyouren@stargraph

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

如果一个类定义了拷贝构造函数或拷贝赋值函数，那么您必须最好同时定义移动构造函数或移动赋值函数，否则低效。三五法则是前人总结的，避免犯错的经验。只告诉做什么，不告诉为什么，是不深入的。让我们通过撞南墙的方式来深入理解一下。更多这样的前人经验可以参考： https://github.com/isocpp/ CppCoreGuidelines 三五法则：拷贝构造函数 • 在 = 时，默认是会拷贝的。比如右边这样：

0 码力 | 96 页 | 16.28 MB | 1 年前
3
Rust分布式账务系统 - 胡宇

第三届中国 Rust 开发者大会 Rust 构建分布式账务系统在 Fintech 公司落地 Rust 项目的经验分享 Airwalle x 胡宇 Airwallex 我们是一家跨境支付领域的 Fintech 独角兽关于我们 E2 轮 Fintech 独角兽，业务遍布全球关于我们： Airwallex 墨尔本新加坡伦敦深圳香港北京旧金山上海东京

0 码力 | 27 页 | 12.60 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

全面使用：使用 Zadig 每天数百次构建部署持续交付 “ 星云科技是我们持续创业的新业务，我们从一开始就采用了公有云、云原生等最新的理念，结合以往的技术经验，毫无悬念的直接选择 Zadig 作为持续交付的核心组件，从最头打造最高效的研发体系。 Zadig 解决了云原生环境的持续交付的难题，与 GitLab 等已在业界广泛 ” 使用的系统集成

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

tbb::static_partitioner 用于循环体不均匀的情况效果不好 tbb::simple_partitioner 用于循环体不均匀的情况效果很好 tbb::affinity_partitioner 记录历史，下次根据经验自动负载均衡 tbb::simple_partitioner 粒度为 1 太细了，效果不好 tbb::static_partitioner 粒度自动变成 n / 4 ，效果好 tbb::simple_partitioner

0 码力 | 116 页 | 15.85 MB | 1 年前
3

共 8 条前往

页

分类

语言

格式

使用硬件加速Tokio - 戴翔

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

新一代分布式高性能图数据库的构建 - 沈游人

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

Rust分布式账务系统 - 胡宇

Zadig 面向开发者的云原生 DevOps 平台

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅