3D点云车辆检测 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Zadig 面向开发者的云原生 DevOps 平台

面向开发者的云原生 DevOps 平台角色：产品 / 架构开发测试运维运维 / 开发技术支持事件需求设计架构设计拆任务、写代码代码集成 xN 单元测试验证 xN 代码扫描 xN 自测、联调 xN 集成验证 xN 写测试用例系统验证 xN 自动化测试 xN 性能测试 xN 安全测试 xN 数据变更 xN 服务全生命周期而非只关注代码 ● 每天多次提交提早验证 Zadig 采用「云原生产品级交付」设计理念数字化产研协同 • 环境 - 统一开发者协作平面 • 工作流 - 统一交付变更通道 • 异构支持 - 统一产研运管理平面重视开发者体验，工程师不再做脏活累活传统 DevOps 体系 Zadig 云原生 DevOps 平台高人效低人效低人效 / 低质量 / 低效率今天发版、明早升级嗷嗷待哺状态 Zadig 优势、使用场景、解决问题域 Zadig 解决问题域 Zadig 云原生开放性：极简、 0 负担接入 Zadig 业务架构 Zadig 系统架构 1 Zadig 行业方案对比分析职能传统 DevOps 方案 ZadigX 云原生 DevOps 方案降本提效组织能力提升业务负责人研发不透明，规划凭感觉： • 发版时间靠运气

0 码力 | 59 页 | 81.43 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

生活中无处不在的图图分析技术分类图查询 • 使用图数据库的查询语言进行点边搜索图算法 • 中心性算法 • 社区算法 • 路径算法 • … 图深度学习 • 图嵌入 • 图卷积 • 图注意力网络 • 图自编码器图查询及其应用场景图查询 • 使用图数据库的查询语言进行点边的关联查询，可以快速完成传统数据库难以完成的多度点边关联当前图的典型应用场景路径识别群体挖掘节点识别图数据集成 • 可视化分析 • 知识图谱解决方案 • 图查询语言 • 欺诈检测 • 网络安全分析 • 社交网络分析 • BI 工具 • 图分析工具集 • 图咨询服务 Source ： Graph Aware 图数据库发展趋势 AtlasGraph 研发背景 • 业务对大图分析的诉求（千亿点、万亿边） • 实时风控对图库的性能挑战（ OLTP 毫秒级响应） • 海致图平台产）新一代分布式图数据库需具备的特性特性信雅达 • 高可用 • 一致性（事务） • 高性能 • 低资源消耗 • 易用 • 功能丰富 AtlasGraph 关键特性云原生 Cloud-Native Graph Database 支持弹性伸缩，有效利用硬件资源，高可用，高可靠，故障自愈，低成本运维 HTAP Hybrid Transactional/Analytical

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

来表示数组的结尾。这样只需要一个首地址指针就能表示一个动态长度的数组，高，实在是高。 “0 结尾字符串”知识点应用举例 • 利用 C 语言字符串“以 0 结尾”这个特点，我们可以在一个本来非 0 的字符处写入 0 ，来提前结束字符串。例如在第 n 个字符写入 0 ，就会只保留前 n 个字符作为一个子字符串，删除后半部分。 “0 结尾字符串”知识点应用举例 • C 语言所谓的字符串类型 char * 实际上就是个首地址指没什么好神秘的，他就是一个普通的字符。 • 仅仅只是 printf 和 scanf 这些特定的函数会对 % 特殊处理而已。 • 而 \ 比较厉害，他是编译器内部专门为他“开了个后门”。 • 编译器检测到字符串中出现 \ 就会把下一个字符特殊处理。 • 而 % ，编译器并不会特殊处理 % ，是 printf 函数内部在运行时处理了 % 的下一个字符。 • % 就像你和同学随手“拉钩”定下的约定，这是即可。字符串常用操作第 6 章 at 获取指定位置的字符 • s.at(i) 和 s[i] 都可以获取字符串中的第 i 个字符。 • 区别在于 at 如果遇到 i 越界的情况，也就是检测到 i ≥ s.size() 时，会抛出 std::out_of_range 异常终止程序。使用 gdb 等调试器就可以在出这个异常的时候暂停，帮你调试错误（ BV1kP4y1K7Eo ）。也可以从外部函数

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

，没有类型区分，导致很容易弄错单位，混淆时间点和时间段。 • 比如 t0 * 3 ，乘法对时间点而言根本是个无意义的计算，然而 C 语言把他们看做一样的 long 类型，从而容易让程序员犯错。 C++11 引入的时间标准库： std::chrono • 利用 C++ 强类型的特点，明确区分时间点与时间段，明确区分不同的时间单位。 • 时间点例子： 2022 年 1 月 8 日 13 点 07 分 10 秒 • 时间段例子： 1 分 30 秒 • 时间点类型： chrono::steady_clock::time_point 等 • 时间段类型： chrono::milliseconds ， chrono::seconds ， chrono::minutes 等 • 方便的运算符重载：时间点 + 时间段 = 时间点，时间点 - 时间点 = 时间段 • auto t0 = chrono::steady_clock::now(); // 获取当前时间点 • auto t1 = t0 + chrono::seconds(30); // 当前时间点的 30 秒后 • auto dt = t1 - t0; // 获取两个时间点的差（时间段）

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

分块能减少 unordered_map 中存储的表项数量，从而减轻哈希的压力。但意味着键值在空间上需要具有一定的局域性，否则会浪费分块中一部分空间。然而我们这里是要用他记录粒子经过的点，因此具有一定空间局域性，能够被分块优化。实际上空间局域性正是稀疏网格能够实现的一大前提，稍后详细讨论。在 16x16 分块的基础上，只用一个 bit 存储图片解释稀疏的好处用户来说是个很大的坑点，很多人想当然地用 % 做循环边界，然而这对负方向会不起作用。解决： (a % b + b) % b • 我看一些 CFD 用户喜欢写 (a + b) % b 做循环边界，从而避免负方向上出错。然而这还是避免不了 a < -b 时的出错。 • 正确的写法是： (a % b + b) % b • 如果 b 是常数且为 2 的幂次方，编译器会检测到，并替换为更高效的位运算，反而减少了计算量。避免多个线程同时访问。然而这样会严重影响性能，锁和原子多了，就根本并行不起来。教科书式的解决：二次判断法这样如果 block 已经非空，则可以不用上锁，减少上锁次数。如果 block 为空，则上锁；再次检测是否为空，空则分配内存，非空说明其他线程已经帮我分配好了，直接退出。结果反而还变慢了……所以有时候教科书（如 Concurrency in Action ）不一定就是完美解决方案，要根据实际情况判断。

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

而且，类成员也不可以定义为 auto ：自动类型推导：函数返回值 • 除了可以用于定义变量，还可以用作函数的返回类型： • 使用 auto 以后，会自动被推导为 return 右边的类型。 • 不过也有三点注意事项： 1. 当函数有多条 return 语句时，所有语句的返回类型必须一致，否则 auto 会报错。 2. 当函数没有 return 语句时， auto 会被推导为 void 。 3. 如果声明和实现分离了，则不能声明为 ret.value() : 3 optional ： value() 会检测是否为空，空则抛出异常 • 当 ret 没有值时（即 nullopt ）， ret.value() 会抛出一个异常，类型为 std::bad_optional_access 。 optional ： operator*() 不检测是否为空，不会抛出异常 • 除了 ret.value() 之外还可以用 *ret *ret 获取 optional 容器中的值，不过他不会去检测是否 has_value() ，也不会抛出异常，更加高效，但是要注意安全。 • 请确保在 has_value() 的分支内使用 *ret ，否则就是不安全的。 • 如果 optional 里的类型是结构体，则也可以用 ret->xxx 来访问该结构体的属性。 optional ： operator bool()

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

set 系列指令有 setle ， setge ， setl 等等。 • 冷知识： 32 位时代 cmov 系列曾经是 x86 的一个拓展特性（像 sse 一样），使用前需要先用 cpuid 指令检测是否支持，如果在不支持 cmov 的 CPU 上使用会产生 SIGILL 错误。不过现在 64 位的 x86 CPU 都保证自带了 cmov 和 sse 拓展，所以不需要手动开启什么开关编译器就会自动生成利用还有一种“摆烂”的做法： • (cond ? a : b) // 方法 3 • 三目运算符通常会变成和 if-else 一样的分支，同样会生成条件跳转指令，理应一样低效。但是有时候编译器会检测到，可以帮你自动优化成无分支版本的。 “ 妙用加减乘”进行无分支优化的通用公式 • 我比较喜欢方法 2 ，因为他可以很直观地同样适用于多个分支的情况，例如： • if (x < 0) return if-else ，编译器往往会自动检测到可以优化，帮你应用“妙用加减乘”了，无法体现手动优化的意义。不同写法的性能测试 • 我们照常编写了测试用例，禁止内联优化，同样生成 10^7 个随机数（ -512 到 512 区间）。 • 至于为什么采用需要三个分支的 clamp 做测试？ • 优化级别在 -O1 以上时，对于只有两个分支的 if- else ，编译器往往会自动检测到可以优化，帮你应用

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 指的是分支预测是否成功。多少计算量才算多？ • 看右边的 func ，够复杂了吧？也只是勉勉强强超过一点内存的延迟了，但在 6 个物理核心上并行加速后，还是变成 mem-bound 了。 • 加速比： 1.36 倍 • 应该达到 6 倍（物理核心数量）才算理想加速比。加速曲线 • funcA 三级缓存由各个物理核心共享，总共 12 MB 。通过图形界面查看拓扑结构： lstopo 根据我们缓存的大小分析刚刚的图表 • 也可以看到刚刚两个出现转折的点，也是在二级缓存和三级缓存的大小附近。 • 因此，数据小到装的进二级缓存，则最大带宽就取决于二级缓存的带宽。稍微大一点则只能装到三级缓存，就取决于三级缓存的带宽。三级缓存也装不下，那就取决于主内存的带宽了。 • 结论：要避免 mem-bound 4096 字节）随机访问 • 解决方案就是，把分块的大小调的更大一些，比如 4KB 那么大，即 64 个缓存行，而不是一个。 • 这样一次随机访问之后会伴随着 64 次顺序访问，能被 CPU 检测到，从而启动缓存行预取，避免了等待数据抵达前空转浪费时间。页对齐的重要性 • 为什么要 4KB ？原来现在操作系统管理内存是用分页（ page ），程序的内存是一页一页贴在地址空间中的，

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

这个目标，即安装 -D 选项：指定配置变量（又称缓存变量） • 可见 CMake 项目的构建分为两步： • 第一步是 cmake -B build ，称为配置阶段（ configure ），这时只检测环境并生成构建规则 • 会在 build 目录下生成本地构建系统能识别的项目文件（ Makefile 或是 .sln ） • 第二步是 cmake --build build ，称为构建阶段（ build 则是专为性能优化的构建系统，他和 CMake 结合都是行业标准了。 Ninja 和 Makefile 简单的对比性能上： Ninja > Makefile > MSBuild Makefile 启动时会把每个文件都检测一遍，浪费很多时间。特别是有很多文件，但是实际需要构建的只有一小部分，从而是 I/O Bound 的时候， Ninja 的速度提升就很明显。然而某些专利公司的 CUDA toolkit 在 CMAKE_CXX_STANDARD_REQUIRED 是 BOOL 类型，可以为 ON 或 OFF ，默认 OFF 。 • 他表示是否一定要支持你指定的 C++ 标准：如果为 OFF 则 CMake 检测到编译器不支持 C++17 时不报错，而是默默调低到 C++14 给你用；为 ON 则发现不支持报错，更安全。 https://crascit.com/2015/03/28/enabling-cxx11-in-cmake/

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

aligned packed single SIMD 指令：敢不敢再宽一点？为什么编译器没有用 256 位的 ymm0 ？因为他不敢保证运行这个程序的电脑支持 AVX 指令集…… 两个 int32 可以合并为一个 int64 四个 int32 可以合并为一个 __m128 八个 int32 可以合并为一个 __m256 让编译器自动检测当前硬件支持的指令集 -march=native 让编译器自动判断当前硬件支指向的数组是否有重合。考虑 func(a, a + 1) 的情况，那样会产生数据依赖链，没法 SIMD 化。为了优化而不失正确性，他索性生成两份代码：一份是 SIMD 的，一份是传统标量的他在运行时检测 a, b 指针的差是否超过 1024 来判断是否有重叠现象。 1. 如果没有重叠，则跳转到 SIMD 版本高效运行。 2. 如果重叠，则跳转到标量版本低效运行，但至少不会错。 SIMD 版标量版即可实现同样效果，就不需要手动写 padding 变量了。那是不是所有结构体打上 alignas(16) 我的程序就会变快？错了，有可能不仅不变快，反而还变慢！ SIMD 和缓存行对齐只是性能优化的一个点，又不是全部。还要考虑结构体变大会导致内存带宽的占用，对缓存的占用等一系列连锁反应，总之，要根据实际情况选择优化方案。结构体的内存布局： AOS 与 SOA • AOS （ Array of Struct

0 码力 | 108 页 | 9.47 MB | 1 年前
3

共 29 条前往

页

Zadig 面向开发开发者原生 DevOps 平台游人 RustCC AtlasGraph C++高性性能高性能并行编程优化课件 15 05 10 03 07 11 04

分类

语言

格式