硬件调优 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

使用硬件加速Tokio - 戴翔

第三届中国 Rust 开发者大会使用硬件加速 Tokio 演讲人： Loong.Dai, Cathy.Lu Loong Dai • Intel 云原生工程师 • 微软 MVP • Dapr 、 Thanos 、 Golangci-lint 的 Maintainer • 现在主要专注于服务网格领域，探索云原生软硬件结合新范式 • Github ID: daixiang0 自我介绍

0 码力 | 17 页 | 1.66 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

的技术方向，满足人们对更大规模、更复杂数据的实时处理和存储需求，是计算机领域竞争新战略制高点。产学结合、协同创新，打造全球领先的国产自研图数据库 AtlasGraph ，培育世界级的图计算软硬件生态体系，保持对全球科技竞争的战略均衡。海致高性能图计算院士专家工作站海致获得“ 2021 年 CCF 科学技术奖科技进步卓越奖” CCF 科学技术奖被认为是计算机科学与技术领域最具影响力的专业奖项之一，一致性（事务） • 高性能 • 低资源消耗 • 易用 • 功能丰富 AtlasGraph 关键特性云原生 Cloud-Native Graph Database 支持弹性伸缩，有效利用硬件资源，高可用，高可靠，故障自愈，低成本运维 HTAP Hybrid Transactional/Analytical Processing ，高性能图计算引擎，预置 20 余种图计算算法，可扩展的分析引擎支持更复服务多活，保证图库不会出现单点故障。 Raft 服务高可用方案偏向分析型的分布式事务【 MVOCC 事务提交】基于多版本乐观并发控制技术的分布式事务实现，在保障一致性的前提下，提供优秀的分析性能分布式事务技术方案 MVOCC 处理流程全面的算法支持  覆盖全部常用算法 • 路径计算、社区检测、相似度计算等  丰富的自研图算法 • 环路识别、链路识别、节点间全路径、

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

处理完以后，缓存也刚好读取完 a[2] 了，从而 CPU 不用等待，就可以直接开始处理 a[2] ，避免等待数据的时候 CPU 空转浪费时间。 • 这种策略称之为预取（ prefetch ），由硬件自动识别你程序的访存规律，决定要预取的地址。一般来说只有线性的地址访问规律（包括顺序、逆序；连续、跨步）能被识别出来，而如果你的访存是随机的，那就没办法预测。遇到这种突如其来的访存时， CPU ？原来现在操作系统管理内存是用分页（ page ），程序的内存是一页一页贴在地址空间中的，有些地方可能不可访问，或者还没有分配，则把这个页设为不可用状态，访问他就会出错，进入内核模式。 • 因此硬件出于安全，预取不能跨越页边界，否则可能会触发不必要的 page fault 。所以我们选用页的大小，因为本来就不能跨页顺序预取，所以被我们切断掉也无所谓。 • 另外，我们可以用 _mm_alloc 的计算，从而只要计算的延迟小于内存的延迟，延迟就被隐藏起来了，而不必等内存抵达了再算。这就是为什么有些运算量不足 32 次的程序还是会无法达到 mem-bound ，手动预取以后才能达到，就是因为硬件预取预测失败，导致不得不等内存抵达了才能算，导致延迟隐藏失败。隐藏成功： a[0] a[1] a[2] 重新理解 mem-bound ：延迟隐藏 • 之前提到， 1 次浮点读写必须伴随着

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

用于定义核函数，他在 GPU 上执行，从 CPU 端通过三重尖括号语法调用，可以有参数，不可以有返回值。 • 而 __device__ 则用于定义设备函数，他在 GPU 上执行，但是从 GPU 上调用的，而且不需要三重尖括号，和普通函数用起来一样，可以有参数，有返回值。 • 即： host 可以调用 global ； global 可以调用 device ； device 可以调用 device 上的函数。同时定义在 CPU 和 GPU 上 • 通过 __host__ __device__ 这样的双重修饰符，可以把函数同时定义在 CPU 和 GPU 上，这样 CPU 和 GPU 都可以调用。让 constexpr 函数自动变成 CPU 和 GPU 都可以调用 • 这样相当于把 constexpr 函数自动变成修饰 __host__ __device__ ，从而两边都可以调用。比如这里设置了 RTX3000 系列的架构版本号 86 ，在 RTX2080 上就运行不出结果。 • 最坑的是他不会报错！也不输出任何东西！就像没有那个 kernel 一样！所以一定要注意调对你的版本号。否则就会这样 kernel 好像没有执行过一样，只有 CPU 上的代码被执行了。指定多个版本号 • 可以指定多个版本号，之间用分号分割。 • 运行时可以自动选择最适合当前显卡的版

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

PPT 和代码： https://github.com/parallel101/course 本课涵盖：稀疏矩阵、 unordered_map 、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、 CFD 仿真、深度学习编程人员第 0 章：稀疏矩阵稠密数组存储矩阵用 foreach 包装一下枚举的过程改用 map 来存储分离 read/write/create ）不一定就是完美解决方案，要根据实际情况判断。真正的解决： tbb::spin_mutex 其实主要的瓶颈在于 std::mutex 会切换到操作系统内核中去调度，非常低效。而 tbb::spin_mutex 则是基于硬件原子指令的，完全用户态的实现。区别： std::mutex 的陷入等待会让操作系统挂起该线程，以切换到另一个；而 tbb::spin_mutex 的陷入等待是通过不断地 while (locked); 发现结果不对了……说明 int8_t 太小了（可以容纳 - 128 到 127 ），容纳不下 97*100 这么大的数，发生了溢出导致结果错误。试图解决：用 uint8_t 表示，定点数系数调小到 2 • 注意到我们的值始终是正数，因此可以用无符号的 uint8_t （可以容纳 0 到 255 ），然后把刚刚的系数 100 改小到 2 ，成功算对结果了，代价是精度损失了不少。

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 • 爱思考：为什么这里 Func 为 4 字节？ lambda 表达式：如何避免用模板参数 • 虽然这样可以让编译器对每个不同的 lambda 生成一次，有助于优化。 • 但是有时候我们希望通过头文件的方式分离声明和实现，或者想加快编译，这时如果再用 template class 作为参数就不行了。 • 为了灵活性，可以用 std::function 语言的 API 比如 pthread 和 atexit 。 lambda + 模板：双倍快乐 • 可以将 lambda 表达式的参数声明为 auto ，声明为 auto 的参数会自动根据调用者给的参数推导类型，基本上和 template 等价。 • auto const & 也是同理，等价于模板函数的 T const & 。 • 带 auto 参数的

0 码力 | 82 页 | 12.15 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

角色：产品 / 架构开发测试运维运维 / 开发技术支持事件需求设计架构设计拆任务、写代码代码集成 xN 单元测试验证 xN 代码扫描 xN 自测、联调 xN 集成验证 xN 写测试用例系统验证 xN 自动化测试 xN 性能测试 xN 安全测试 xN 数据变更 xN 代码变更 xN 配置变更 xN 2022 年 9 月场景深化能力增强 Helm/K8s YAML/ 托管场景接入流程优化 UX/UI 升级，工程师一线体验优化推出效能看板，实时客观度量工程数据指标效率优化、开发者体验增强 2023 年面向生态伙伴开放场景面向开发者提供 IDE 插件 / 自测环境通用工作流广泛链接生态赋能开发者企业解决方案和最佳实践内置发布业务资源利用率提升 30% 统一治理内部规范，开发自助上线；解放运维，工作重心向业务稳定性保障，建设平台工程体系研发研发时间被大量占用： • 本地开发环境难模拟 • 多业务联调艰难，诊断耗时多 • 出现问题诊断耗时多 • 流程割裂协作痛苦，响应慢调试自测免打扰：本地 / 子环境免打扰，独立完成验证工作自助验证更高效：自动化工作流 + 云上环境，高效验证调试安全发布有信心：

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 两个 int32 可以合并为一个 int64 四个 int32 可以合并为一个 __m128 八个 int32 可以合并为一个 __m256 让编译器自动检测当前硬件支持的指令集 -march=native 让编译器自动判断当前硬件支持的指令。老师的电脑支持 AVX 指令集，所以他用了。不过注意这样编译出的程序，可能放到别人不支持 AVX 的电脑上没法运行。数组清零：自动调用标准库的即可实现同样效果，就不需要手动写 padding 变量了。那是不是所有结构体打上 alignas(16) 我的程序就会变快？错了，有可能不仅不变快，反而还变慢！ SIMD 和缓存行对齐只是性能优化的一个点，又不是全部。还要考虑结构体变大会导致内存带宽的占用，对缓存的占用等一系列连锁反应，总之，要根据实际情况选择优化方案。结构体的内存布局： AOS 与 SOA • AOS （ Array

0 码力 | 108 页 | 9.47 MB | 1 年前
3
Zadig 产品使用手册

据变更、部署生产环境（变量变更、模板变更）、场景测试管理员 ( 运维 ) 准备——工作流管理员 ( 运维 ) 准备——工作流面向角色环境描述环境名称样例场景介绍开发工程师用于日常开发、联调 dev 如果 Java 栈实现灰度能力，可以通过新建环境随时拉起开发自测子环境如果采用 Istio + Skywalking 技术栈，通过 Zadig 开启自测模式随时拉起子环境测试工程师通知 Sprint 发布测试验证变更发布产品规划需求开发 Sprint 发布测试验证变更发布产品规划多人做集成联调——更新不同服务启动 dev 工作流，选择多个服务和对应的 MR 执行需求开发多人做集成联调——更新同一个服务启动 dev 工作流，选择多个服务以及其对应的多个 MR 执行 Sprint 发布测试验证变更发布产品规划需求开发来自顶级资本的多轮融资。自 Z a d i g 2 0 2 1 年开源以来，公司连续两年被评为 “ 开源中国 ” 的 “ 年度优秀开源技术团队 ” ， 2 0 2 2 年度 3 6 氪「新经济之王」基础软件赛道的 “ 年度企业 ” ， 2 0 2 2 年度 G A D

0 码力 | 52 页 | 22.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 今天，双核或者四核机器在多线程应用方面，其性能不见得的是单核机器的两倍或者四倍。这一问题一直伴随 CPU 发展至今。并发和并行的区别 • 运用多线程的方式和动机，一般分为两种。 • 并发：单核处理器，操作系统通过时间片调度算法，轮换着执行着不同的线程，看起来就好像是同时运行一样，其实每一时刻只有一个线程在运行。目的：异步地处理多个不同的任务，避免同步造成的阻塞。 • 并行：多核处理器，每个处理器执行一个线（小彭老师推荐方案）先对 a 预留一定的内存，避免频繁扩容影响性能。加速比： 5.98 倍并行筛选 6 使用 tbb::spin_mutex 替代 std::mutex 。 spin_mutex （基于硬件原子指令）会让 CPU 陷入循环等待，而不像 mutex （操作系统提供调度）会让线程进入休眠状态的等待。若上锁的区域较小，可以用轻量级的 spin_mutex 。若上锁的区域很大，则循环等待只会浪费

0 码力 | 116 页 | 15.85 MB | 1 年前
3

共 18 条前往

页

分类

语言

格式