插件结构 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

从稀疏数据结构到量化数据类型 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 本课涵盖：稀疏矩阵、 unordered_map 、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、是负数，则得到的模也是负数。 Python 的 % 就没问题 • 7 % 4 = 3 • -7 % 4 = 1 • Python 的模运算 a % b 的值始终是 [0, b) 区间内的正数，非常方便。对稀疏数据结构造成的问题 • 如果这里的 x 是负数，则 x % B 也是负数，会造成对 m_block 的越界访问。 • 因此 % 会返回负数对 CFD 用户来说是个很大的坑点，很多人想当然地用 % 做循环边界，是正数，则是向下取整。 Python 的 // 就没问题 • 7 // 4 = 1 • -7 // 4 = -2 • Python 的整除运算 a // b 的值始终是向下取整，非常方便。对稀疏数据结构造成的问题 • 也就是说，如果 x 是 [-3,0] 则 x / B 会是 0 ，如果 x 是 [0,3] 则 x / B 也是 0 。导致两个同时跑到一个 block 上去，会出错。高效的解决：位运算

0 码力 | 102 页 | 9.50 MB | 1 年前
3
Rust分布式账务系统 - 胡宇

● 事务层与账户层分离 ● 独立水平扩展 ● CQRS ● Event Sourcing ● 针对读场景，写场景分别优化 ● 稳定的底层 API ● 灵活的顶层 API ● 树状结构 ● 聚合查询 ● 正确性：内存安全，线程安全 ● 可靠性： Raft 共识算法 raft-rs ● 高性能：关键路径无锁单线程顶层架构 ● Gateway 路由层 ○ 业务 API Kotlin ：偏业务，适合快速迭代 ● Rust ：偏基础架构，适合精心打磨 ● gRPC ：跨语言跨平台通讯心路历程真刀实枪 – 开发调试部署 IDE JetBrains + Rust 插件 Gitlab CI/CD 心路历程真刀实枪 – 文档工具文档生成 CI/CD git page 作为文档心路历程吐槽点 ● Nightly 版本编译器： tikv ， raft-rs

0 码力 | 27 页 | 12.60 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

UX/UI 升级，工程师一线体验优化推出效能看板，实时客观度量工程数据指标效率优化、开发者体验增强 2023 年面向生态伙伴开放场景面向开发者提供 IDE 插件 / 自测环境通用工作流广泛链接生态赋能开发者企业解决方案和最佳实践内置发布 AI 增强解决方案企业开放性、 A I 能力增强产品发展历程高频极速迭代： Zadig 与现存 DevOps 方案对比来自客户的评价： 2 Zadig 产品特性 Zadig 核心特性面向开发者的云原生环境灵活易用的高并发工作流高效协同的测试管理云原生 IDE 插件（ VS CODE) 客观精准的效能洞察强大免运维的模版库 • 自动生成面向开发、测试、运维角色的工作流 • 多个微服务并行构建、部署、测试，代码验证效率 UP • 自定义工作流，灵活编排发布、自 VScode IDE 中使用 Zadig 核心能力 • 无需打包镜像，即可一键热部署到自测环境 • 与 Zadig 基准环境交互，完成自测、联调验证云原生 IDE 插件（ vscode ）执行企业合规 S O P 流程，灰度蓝绿部署策略，完成生产环境发布最后一公里特色模块（一） – 发布管理

0 码力 | 59 页 | 81.43 MB | 1 年前
3
GPU Resource Management On JDOS

自行设定相应的镜像即可，有完善的周边服务训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作，用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像，不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源，提高

0 码力 | 11 页 | 13.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

如果有，则直接使用缓存中的数据。 • 这样一来，访问的数据量比较小时，就可以自动预先加载到这个更高效的缓存里，然后再开始做运算，从而避免从外部内存读写的超高延迟。缓存的分级结构查看高速缓存大小： lscpu • 可以看到我们 x86 电脑的缓存结构分为三级。 • 一级缓存分为数据缓存和指令缓存，其中数据缓存有 32 KB ， 6 个物理核心每个都有一个，总共 192 KB 。而指令缓存的大小刚好和数据缓存一样也是。而指令缓存的大小刚好和数据缓存一样也是 192 KB 。 • 二级缓存有 256 KB ， 6 个物理核心每个都有一个，总共 1.5 MB 。 • 三级缓存由各个物理核心共享，总共 12 MB 。通过图形界面查看拓扑结构： lstopo 根据我们缓存的大小分析刚刚的图表 • 也可以看到刚刚两个出现转折的点，也是在二级缓存和三级缓存的大小附近。 • 因此，数据小到装的进二级缓存，则最大带宽就取决于二级缓存的带宽。稍微大一点则宽。三级缓存也装不下，那就取决于主内存的带宽了。 • 结论：要避免 mem-bound ，数据量尽量足够小，如果能装的进缓存就高效了。 L2: 256 KB L3: 12 MB 缓存的工作机制：读 • 缓存中存储的数据结构： • struct CacheEntry { • bool valid; • uint64_t address; • char data[64]; • }; • CacheEntry

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 get 的返回类型。 tuple ：结构化绑定 • 可是需要一个个去 get 还是好麻烦。 • 没关系，可以用结构化绑定的语法： • auto [x, y, ...] = tup; • 利用一个方括号，里面是变量名列表，即可解包一个 tuple 。里面的数据会按顺序赋值给每个变量，非常方便。 tuple ：结构化绑定为引用 • 结构化绑定也支持绑定为引用： • auto &[x tuple ：结构化绑定为万能推导 • 不过要注意一下万能推导的 decltype(auto) ，由于历史原因，他对应的结构化绑定是 auto && ： • auto &&[x, y, ...] = tup; // 正确！ • decltype(auto) [x, y, ...] = tup; // 错误！ • 对的，是两个与号 && 。结构化绑定：还可以是任意自定义类！

0 码力 | 82 页 | 12.15 MB | 1 年前
3
Rust与算法 - 谢波

…………………………………………………………………………… …………………………….. 1 6 11 15 21 • 背景介绍 • 算法相关知识 • Rust 实现数据结构 • Rust 实现算法 • 总结及学习资源背景介绍 • 个人信息 • 写作动机 • 可参考点 • 为什么背景介绍 # 个人职业 # 与 Rust 结缘 # 前 GPT 时代作品写作本书给我的启示基础、排序、查找、树、图代码框、颜色、图片绘制均由 Latex 完成可参考点为什么为什么讲这个话题？为什么要讲数据结构和算法两部分？算法相关知识算法相关知识 • 抽象数据类型 • 时空复杂度 • 复杂度计算 • 基本数据结构复杂度抽象数据类型什么是抽象数据类型？为什么需要抽象数据类型？时空复杂度 • 时间复杂度更被看重 • 时间和空间复杂度不是对立的，可以协同时间和空间复杂度不是对立的，可以协同时间和空间复杂度复杂度计算 • 大Ｏ标记法（数量级近似） • 用 AI 来估计算步骤、算存储 Rust 基本数据结构复杂度线性数据结构非线性数据结构总体来看，时间复杂度没有超过 O(n) 的！ Rust 实现数据结构 • 栈 • 链表 • Vec Rust 实现数据结构栈借助 Vec 容器泛型支持 Option ？链表链接可能为空

0 码力 | 28 页 | 3.52 MB | 1 年前
3
Rust 异步并发框架在移动端的应用 - 陈明煜

任务优先级调度  异步并行迭代器  结构化并发 Ylong Runtime 对外接口 APP/SA 调度器提交任务 Async function CPU Task CPU Task IO Task IO Task Executor 高中低线程池 Reactor epoll fd1 fd2 …. 结构化并发优先级 deadline Async Fusion of IO/CPU intensive 结构化并发 Structured Concurrency 核心在于通过一种父子结构化的方法实现并发程序，用具有明确入口点和出口点的控制流结构来封装并发任务（可以是线程也可以是协程）的执行，确保所有派生任务在出口之前完成。 Structured concurrency 结构化并发带来的好处：  更高的易用性，用户不再需要显示调用 await await  提高程序的可读性和可维护性  保证了变量生命周期合法，使子任务可以捕获父任务的变量结构化并发 Structured concurrency Scope  Rust 线程中的结构化并发  阻塞等待所有 Scope 内的子线程任务完成  子线程执行的闭包中可以捕获 Scope 外的变量 AsyncScope  将 std 库中 thread scope 的思想异步化

0 码力 | 25 页 | 1.64 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 bitset, glm::vec, string_view • pair, tuple, optional, variant 存储在栈上无法动态扩充大小，这就是为什么 vector 这种数据结构要存在堆上，而固定长度的 array 可以存在栈上那么刚才那个例子改成 array 是不是就可以自动优化成功了？你可以自己试试看，想一想，为什么会是这个结果，然后在作业的 PR 描述中和老师分享你的思考 SIMD 矢量化。第 6 章：结构体两个 float ：对齐到 8 字节成功 SIMD 矢量化！三个 float ：对齐到 12 字节矢量化失败，生成了标量的低效代码往 struct 里添加了个根本没有用到的 z ，却直接导致了优化失败！这是为什么？添加一个辅助对齐的变量：对齐到 16 字节追加了一个没有用的 4 字节变量，整个结构体变成 16 字节大小，矢量化反而成功了？？

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 DME.md) - [ 因特尔 TBB 编程指南 ](https://www.inf.ed.ac.uk/teaching/courses/ppls/TBBtutorial.pdf) - [ 并行体系结构与编程 (CMU 15-418)](https://www.bilibili.com/video/av48153629/) - [ 深入理解计算机原理 (CSAPP)](http://csapp.cs 函数，那么这个类就不需要担心。 • 因为如果用到了自定义解构函数，往往意味着你的类成员中，包含有不安全的类型。 • 一般无外乎两种情况： 1. 你的类管理着资源。 2. 你的类是数据结构。管理着资源：删除拷贝函数，然后统一用智能指针管理 • 这个类管理着某种资源，资源往往不能被“复制”。比如一个 OpenGL 的着色器，或是一个 Qt 的窗口。 • 如果你允许 GLShader

0 码力 | 96 页 | 16.28 MB | 1 年前
3

共 21 条前往

页

分类

语言

格式