内部事件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Zadig 面向开发者的云原生 DevOps 平台

面向开发者的云原生 DevOps 平台角色：产品 / 架构开发测试运维运维 / 开发技术支持事件需求设计架构设计拆任务、写代码代码集成 xN 单元测试验证 xN 代码扫描 xN 自测、联调 xN 集成验证 xN 写测试用例系统验证 xN 自动化测试 xN 性能测试 xN 安全测试 xN 数据变更 xN xN 部署预发环境 xN 部署生产环境 xN 部署 / 灰度上线 xN 监控 / 告警 xN 版本归档 xN 交付追踪 xN 数据度量 xN 服务、工单管理事件、缺陷管理想法用户运行阶段需求阶段研发阶段现代软件交付挑战：开发 5 分钟，上线 2 小时服务一：设计 | 代码编写 | 构建 | 团队高效协作：定义团队角色工作流模板，随时可用云上环境价值清晰呈现：为管理者提供全视角效能数据，赋能数字决策人工低效操作减少 80% 构建资源利用率提升 60% 业务资源利用率提升 30% 统一治理内部规范，开发自助上线；解放运维，工作重心向业务稳定性保障，建设平台工程体系研发研发时间被大量占用： • 本地开发环境难模拟 • 多业务联调艰难，诊断耗时多 • 出现问题诊断耗时多 •

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

高效？既然无分支更高效，我要怎样优化才能让我的程序变成无分支的呢？那就来看本期性能优化专题课吧！分支预测成败对性能的影响排序为什么对有分支的版本影响那么大为什么需要流水线 • 为了高效， CPU 的内部其实是一个流水线 (pipeline) 。流水线的目的是能把原本串行的一系列指令并行化。为了理解为什么需要流水线，我们先反过来，假设没有流水线，会有什么坏处。 • 例如，右边你今天早上的任务清单。流水线如何应付跳转指令：分支预测 • 但是问题是烧开水被烫伤只是个小概率事件！为了这个千分之一的概率而故意等着不刷牙是否有点因噎废食？所以现在的 CPU 都有分支预测的能力。举例来说：你每天都执行刚刚说的那个“早间活动”的任务清单。你发现“如果烧开水被烫伤”这件事似乎从来没发生过，于是你渐渐意识到，被烫伤是个小概率事件，所以你“预判”到今天应该也不会发生意外，不再等待烧完开水才开始刷牙，

0 码力 | 47 页 | 8.45 MB | 1 年前
3
GPU Resource Management On JDOS

选择所用框架（镜像）：支持官方，亦可自制（提供 dockerfile 生成镜像服务） – 选择存储来源：对接了内部的存储 – 填写代码地址，执行的命令等 – 可以选择是否监控训练，提供 tensorboard 任务列表可以指定 git 的 commit-id 发起任务任务详情可以查看具体的容器列表，以及查看容器的日志和事件 Serving 服务提供统一便捷的 Serving 服务，只需用户指定模型，即可提供

0 码力 | 11 页 | 13.40 MB | 1 年前
3
Rust 异步并发框架在移动端的应用 - 陈明煜

Worker Future.poll() Reactor fd fd listen listen find 现有并发框架 Third Party Runtime 目前 Rust 社区最广泛使用的事件驱动型调度框架，擅长处理大量异步 IO 的场景。具有非常强大的生态。 tokio 第一个适配 Rust async/await 原语的运行时库，与 tokio 类似支持异步 IO ，目前已经半废弃 Reactor epoll fd1 fd2 …. 结构化并发优先级 deadline Async Sync Async IO Async Timer Parallel Calc 事件到达注册事件任务优先级调度 Task priority and quality of service 任务优先级调度 Linux CFS 调度 : 线程优先级 • 设置线程的 Nice

0 码力 | 25 页 | 1.64 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

通常来说，并行只能加速计算的部分，不能加速内存读写的部分。 • 因此，对 fill 这种没有任何计算量，纯粹只有访存的循环体，并行没有加速效果。称为内存瓶颈（ memory-bound ）。 • 而 sine 这种内部需要泰勒展开来计算，每次迭代计算量很大的循环体，并行才有较好的加速效果。称为计算瓶颈（ cpu- bound ）。 • 并行能减轻计算瓶颈，但不减轻内存瓶颈，故后者是优化的重点。浮点加法的计算量可见数据量较小时，实际带宽甚至超过了理论带宽极限 42672 MB/s ！ • 而数据量足够大时，才回落到正常的带宽。 • 这是为什么？ CPU 内部的高速缓存 • 原来 CPU 的厂商早就意识到了内存延迟高，读写效率低下的问题。因此他们在 CPU 内部引入了一片极小的存储器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（ cache ）。 • 当 CPU 访问某个地址时，会先查找缓存中是否有对应的 MyClass 内部是 SOA ，而外部仍是一个 vector 的 AOS—— 这种内存布局称为 AOSOA 。 • 缺点是必须保证数量是 1024 的整数倍，而且因为要两次指标索引，随机访问比较烦。 • 这里的 1024 并非随意选取，而是要让每个属性 SOA 数组的大小为一个页（ 4KB ）才能最高效，原因稍后会说明。 AOSOA ：注意，内部 SOA

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

• 仅仅只是 printf 和 scanf 这些特定的函数会对 % 特殊处理而已。 • 而 \ 比较厉害，他是编译器内部专门为他“开了个后门”。 • 编译器检测到字符串中出现 \ 就会把下一个字符特殊处理。 • 而 % ，编译器并不会特殊处理 % ，是 printf 函数内部在运行时处理了 % 的下一个字符。 • % 就像你和同学随手“拉钩”定下的约定，这是 printf 约定俗成的。 • 碍了 java 进军数据处理，高性能计算等领域。 java 第八帝国 cpp 第十一共和国 chrono 和 complex 也定义了一些 literials std::literials 内部定义一览 std::literials::string_literials std::literials::chrono_literials 字符串 <--> 数字第 4 章 java 经典操作：字符串 have ” + 42.toString() + “ yuan” 。 • 但是我们说过 cpp 是不喜欢在编译器里开洞的，他的字符串类型 std::string 是在标准库里定义的，并不是在编译器内部定义的（ cpp 之父：语言本身要和标准库具体实现解耦）如果你嫌弃标准库不好用，也可以定义一个自己的字符串类型 mylib::String 重载个 + 运算符，和标准库的 std::string

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

里取出任务，以免 t1 闲置浪费时间。 • 因此内部 for 循环有可能“窃取”到另一个外部 for 循环的任务，从而导致 mutex 被重复上锁。解决 1 ：用标准库的递归锁 std::recursive_mutex 解决 2 ：创建另一个任务域，这样不同域之间就不会窃取工作解决 3 ：同一个任务域，但用 isolate 隔离，禁止其内部的工作被窃取（推荐）第 5 章：任务分配 simple_partitioner 比 auto_partitioner 快 3.31 倍原因 • tbb::simple_partitioner 能够按照给定的粒度大小（ grain ）将矩阵进行分块。块内部小区域按照常规的两层循环访问以便矢量化，块外部大区域则以类似 Z 字型的曲线遍历，这样能保证每次访问的数据在地址上比较靠近，并且都是最近访问过的，从而已经在缓存里可以直接读写，避免了从主内存读写的超高延迟。直接读写，避免了从主内存读写的超高延迟。 • 下次课会进一步深入探讨访存优化，详细剖析这个案例，那么下周六 14 点敬请期待。第 6 章：并发容器 std::vector 扩容时会移动元素 • std::vector 内部存储了一个指针，指向一段容量 capacity 大于等于其 size 的内存。 • 众所周知， push_back 会导致 size 加 1 ，但当他看到容量 capacity 等于当前 size

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

区间循环，不会越界，也不会漏掉几个元素。 • 这样一个 for 循环非常符合 CPU 上常见的 parallel for 的习惯，又能自动匹配不同的 blockDim ，看起来非常方便。从线程到板块 • 核函数内部，用之前说到的 blockDim.x + blockIdx.x + threadIdx.x 来获取线程在整个网格中编号。 • 外部调用者，则是根据不同的 n 决定板块的数量（ gridDim allocate/deallocate 成员函数的类，这样就可以“骗过” vector ，让他不是在 CPU 内存中分配，而是在 CUDA 的统一内存 (managed) 上分配。 • 实际上这种“骗”来魔改类内部行为的操作，正是现代 C++ 的 concept 思想所在。因此替换 allocator 实际上是标准库允许的，因为他提升了标准库的泛用性。进一步：避免初始化为 0 • vector 在初始化的时候（或是之后（寄存器，共享内存等）的开销，毕竟 GPU 的数据量比较大，禁不起这样切换来切换去…… • 一个 SM 可同时运行多个板块，这时多个板块共用同一块共享内存（每块分到的就少了）。 • 而板块内部的每个线程，则是被进一步调度到 SM 上的每个 SP 。无原子的解决方案： sum 变成数组 • 刚刚的数组求和例子，其实可以不需要原子操作。 • 首先，声明 sum 为比原数组小 1024

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

find 函数。 • set a = { 1, 4, 2, 8, 5, 7 }; • a.find(5); • set 之所以能够实现 O(logn) 复杂度高效查找，是因为他内部预先构建好了一棵二叉排序树。 • 如何构建的？请看动画： 1 4 2 8 5 7 待插入的数 set 查找为什么高效 • set 又称集合（数学概念），是专为查找优化的容器，查找元素要用他自带的 find 函数。 • set a = { 1, 4, 2, 8, 5, 7 }; • a.find(5); • set 之所以能够实现 O(logn) 复杂度高效查找，是因为他内部预先构建好了一棵二叉排序树。 • 如何构建的？请看动画： 1 4 2 8 5 7 1 待插入的数 4 set 查找为什么高效 • set 又称集合（数学概念），是专为查找优化的容器，查找元素要用他自带的 find 函数。 • set a = { 1, 4, 2, 8, 5, 7 }; • a.find(5); • set 之所以能够实现 O(logn) 复杂度高效查找，是因为他内部预先构建好了一棵二叉排序树。 • 如何构建的？请看动画： 1 4 2 8 5 7 1 待插入的数 2 set 查找为什么高效 • set 又称集合（数学概念），是专为查找优化的容器，查找元素要用他自带的

0 码力 | 90 页 | 8.76 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

作为模板类，其实有两个模板参数： set • 第一个 T 是容器内元素的类型，例如 int 或 string 等。 • 第二个 CompT 定义了你想要的比较函子， set 内部会调用这个函数来决定怎么排序。 • 如果 CompT 不指定，默认会直接用运算符 < 来比较。 • 这里我们定义个 MyComp 作为比较函子，和默认的一样用 < 来比较，所以没有变会把 “ arch” 和 “ any” 视为相等的元素？明明内容都不一样？ set 的排序：自定义排序函数 • 首先搞懂 set 内部是怎么确定两个元素 a 和 b 相等的： • !(a < b) && !(b < a) • 也就是说他 set 内部没有用到 == 运算符，而是调用了两次比较函子来判断的。逻辑是： • 若 a 不小于 b 且 b 不小于 a ，则视为 a 等于。虽然低效，但至少可以用了。 std::next 等价于 + • 但是这样手写三个 ++ 太麻烦了，而且是就地操作，会改变迭代器本身。 • 因此标准库提供了 std::next 函数，他的内部实现相当于这样： • 没错，他会自动判断迭代器是否支持 + 运算，如果不支持，会改为比较低效的调用 n 次 ++ 。 std::advance 等价于 += • 刚刚的 std::next

0 码力 | 83 页 | 10.23 MB | 1 年前
3

共 22 条前往

页

Zadig 面向开发开发者原生 DevOps 平台 C++高性性能高性能并行编程优化课件 GPU JDOS 陈明煜 2023RustChinaConf 07 15 06 08 17 14

分类

语言

格式

Zadig 面向开发者的云原生 DevOps 平台

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

GPU Resource Management On JDOS

Rust 异步并发框架在移动端的应用 - 陈明煜

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器