路由 URL 生成 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Pivotal Greenplum 5：新一代数据平台

2010 年底，Greenplum 开始在内部开发一款新型查询优化器，并在 Greenplum 4.3.5 版中首次推出，名为 GPORCA。 GPORCA 能够针对分析数据仓库中常见的一些复杂情况生成更高效的代码，因而非常实用。过去，系统默认使用传统查询优化器，但自 Greenplum 5 起，GPORCA 将成为默认查询优化器。它能够通过并发的混合工作负载处理多种复杂查询，并可提高查询性能。2 语句计算大量可能的查询计划。为了生成最快的计划，GPORCA 会计算数千种备选查询执行计划，并根据成本做出决策。它还能免去不必要的剖析步骤，从而缩短优化时间。与传统查询优化器相比，GPORCA 可以计算更多备选计划，因此能够优化更多查询。3 现代数据分析和商业智能 (BI) 生成的 SQL 查询往往带有相关子查询，内部子查询需要外部查询的相关知识。GPORCA 可以生成不相关的计划，这种计划只需查以生成不相关的计划，这种计划只需查询一次。随后，系统将中间结果与主表结合，生成符合用户条件的结果集。借助上述及其他优化方法，经过 GPORCA 优化的 SQL 查询可实现 10 倍甚至更大幅度的速度提升。但是，也有其他一些查询（尽管数量不多）尚且无法通过 GPORCA 实现性能提升。随着 GPORCA 的功能逐渐增多，传统查询优化器能够在性能上胜出的情况将变得极为罕见。4 Greenplum资源组和Workload Manager

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

......................................................................................... - 354 - 生成扩展配置文件 ............................................................................................ 并行数据装载  管理与监控管理节点：Master Master 作为 GP 的访问入口，主要负责处理客户端连接的访问以及用户提交的 SQL 语句的解析、生成执行计划、优化执行计划等。Master 不存储业务数据，只存储用于维持系统运行的全局信息，比如，对象定义信息，统计信息等，Master 非常重要，如果 Master 丢失，即便是原厂专业技术支持，也不能保证恢复所有信息。上存储着全局系统表(Global System Catalog)(包含数据库系统自身元数据的数据表)，但不存储任何业务数据，业务数据只存储在 Instance 上。 Master 负责客户端的登录认证、SQL 命令接收并生成并行执行计划、对执行计划进行优化、在 Instance 之间分发执行计划、整合 Instance 处理结果、将 Instance 的处理结果汇总并反馈给客户端程序。目前，GP 还不支持

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum on Kubernetes 容器化MPP数据库

StatefulSet ○ Pod网络地址不变 ○ Pod与PV映射关系不变 Kubernetes 网络资源 Service ● Service ○ 定义统一网络地址 ○ 分布式应用程序路由映射 ○ 负载均衡器 Greenplum on Kubernetes Network Interconnect Standby Pod Master Pod Segment Pod Segment ○ GreenplumCluster → primarySegmentCount参数 ● Master节点检测及修复 ○ 自动执行gpactivatestandby ○ 重定向Service路由 ● Segment节点检查及修复 ○ 自动执行gprecoverseg ○ 无需Segment Rebalance ● Node失效 ○ Node节点上Master/Segment节点自动修复

0 码力 | 33 页 | 1.93 MB | 1 年前
3
Greenplum 排序算法

问题一：分割阶段只需要顺序扫描一次外存，最简单的策略是读取外存数据，加载到内存，当内存用满时，执行快速排序等内排序算法，生成一个顺串。之后清空内存，继续读取外存数据，如此反复，直到所有外存数据处理完毕。该算法生成的每一个顺串的大小都不会超过内存的大小，而顺串越小，合并阶段的代价就越高，需要读取外存的次数也越多，有没有办法在分割阶段就生成大于内存大小的顺串呢？归并排序的三个问题 23 替换选择算法 24 Knuth 并调整堆，使其有序。 ● 4. 如果新元组排序键小于lastkey，将该元组放入堆尾，并将堆的大小减1。 ● 5. 重复第2步，直至堆大小变为0。 ● 6. 顺串生成完毕。将堆大小重置为N，并重新建堆。重复第2步，开始生成下一个顺串。替换选择算法 25 ● 问题二：合并阶段假设存在N个输入缓冲区，如何高效的比较N个输入缓冲区的最小值，并输出到输出缓冲区？归并排序的三个问题 lesort模块进行排序排序节点 37 TupleSort是排序节点的核心，算法主要阶段： ● 第一阶段初始化TupleSort，通过调用函数tuplesort_begin_common，生成 Tuplesortstate。Tuplesortstate用于描述排序所需的信息 ● 第二阶段插入元组，每次调用函数puttuple_common，会根据当前TupleSort的状态，选择将元组插入到不同的位置。

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Greenplum开源MPP数据库介绍

通过网络进行数据交换和汇总 Confidential │ ©2022 VMware, Inc. 7 执行架构 Interconnect Client Ø Coordinator: q 管理其它节点 q 生成分布式计划 q 下发计划和汇总结果 q 管理分布式事务 Ø Segments: q 存储数据，share-nothing q 产生计算进程 Ø Libpq：控制信道 Ø Interconnect: executor)负责执行查询 Ø 查询的生命周期: 1) 客户端连接coordinator, coordinator fork出QD 2) QD 拿到纯文本的查询，解析、优化、生成一个树形结构的分布式计划 3) QD 生成slice结构，生成每个slice的一系列进程结构（Gang） 4) QD 连接segment节点，segment节点fork出QE，QE执行分布式计划 5) QD 从QE归集结果，返回给客户端从QE归集结果，返回给客户端 Confidential │ ©2022 VMware, Inc. 14 分布式执行和事务 Ø MVCC q Xmin, Xmax 是节点本地的 Ø 分布式快照 q QD生成，下发给QE q segment本地事务异步两阶段提交，保持一致性 Ø HTAP 优化 q 全局死锁检测 q 只读事务、只涉及到某个节点的操作、vacuum Ø SIGMOD 2021: Greenplum:

0 码力 | 23 页 | 4.55 MB | 1 年前
3
Greenplum 6新特性: 在线扩容工具GPexpand剖析

配置文件 • 数据重分布 – gpexpand • 清理 – gpexpand -c GPExpand简介与具体用法 • 增加新节点 – gpexpand –i 配置文件（gpexpand生成或手动编辑） sdw:sdw:25438:/data/expand1/primary:9:3:p sdw:sdw:25439:/data/expand1/mirror:10:3:m GPExpand简介与具体用法 – 增加新节点只要在gp_segment_configuration里添加新节点信息即可 – 新节点以Master为模板生成，只包含catalog，没有数据改进与实现 • 问题 – 生成模板的过程中，如果catalog被修改怎么保证一致性改进与实现 • 问题 – 生成模板的过程中，如果catalog被修改怎么保证一致性 ▪ 新增catalog锁 ▪ select gp_expand_lock_catalog()

0 码力 | 37 页 | 1.12 MB | 1 年前
3
Greenplum 精粹文集

题，Greenplum 采用 Master-slave 架构， Master 是否会成为瓶颈？完全不用担心，Greenplum 所有的并行任务都是在 Segment 数据节点上完成后，Master 只负责生成和优化查询计划、派发任务、协调数据节点进行并行计算。按照我们在用户现场观察到的，Master 上的资源消耗很少有超过 20% 情况发生，因为 Segment 才是计算和加载发生的场所（当然， 16-11-22 下午3:38 36 2. 分析方法和处理技巧 1) 遇到临时 schema 的问题，命名为 pg_temp_XXXXX，可以直接删除。通过 gpcheckcat 检查后，会自动生成对临时 schema 的修复脚本。由于临时 schema 的问题会干扰检查结果，因此，处理完后，需要再次用 gpcheckcat 检查。 2) 如遇个别表对象元数据不一致的情况，通常只会影响该对象的 session 级别的 gp_segments_ for_planner 参数的值，不要试图在更高级别修改该参数，那样是极其危险的。再者，执行计划为什么会选择不够高效的方法，由于执行计划是基于统计信息生成的，而统计信息不可能涵盖所有细节。通常，以下几中情况会导致评估失真： 1) 过多的 WHERE 条件但并没有过滤很多数据。 2) 过多的 JOIN 条件但并没有真正降低匹配数据量。 3)

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

Motion Table Scan Hash Hash Join Gather Motion SLICE 3 SLICE 1 SLICE 2 SEGMENT 2 SEGMENT 1 生成并行查询计划 12 Pivotal Confidential–Inter nal Use Only master segment1 segment2 QD process slice 3 Confidential–Inter nal Use Only 优化器本地存储主节点Segment 系统表分布式事务 Interconnect 调度器执行器解析器优化器处理解析树，生成查询计划查询计划描述了如何执行查询主节点 Segment 实例本地事务执行器系统表本地存储 Segment 主机 Segment 实例 Local TM 执行器Executor

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

在合理的避免数据倾斜的分布键时，即可采用随机分布的方式。随机分布与复制分布复制分布则表示整张表在每个节点上都有一份完整的拷贝，假设我们有 100 个节点，复制表则会将数据保存 100 份。复制表可避免生成分布式查询计划，而是生成本地计划，从而避免数据在集群的不同节点间移动。 Confidential │ ©2021 VMware, Inc. 12 除了支持数据在不同的 segment 节点上水平分布以外，还支持在单个节点按照不同的标准进行分

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Greenplum介绍

式数据库中的所有元数据，如表结构定义、索引等等。但其并不存储实际的数据，实际的数据是存储在segment 数据库的。 master服务器接受从用户发来的连接，并做用户验证，接收用户发来的sql，生成分布式执行计划，再把分布执行计划分发到segment上执行，接收segment返回的数据，最后返回给用户。 Greenplum架构: Segment介绍 Segment是数据的实际存储的地方，也是一个经过改造所有活动的SQL的cost值最多是多少？ 2. 活动的SQL最多是多少个 3. 控制活动的SQL的优先级（4.0的新功能） GP的查询处理用户提交一个SQL到master，master解析这个SQL，生成一个分布式的执行计划，然后把这个分布式的执行计划分发到各个segment上，然后segment执行它自己的特定数据集的本地数据库业务。所有的数据库操作，如表扫描、表连接（joins)、聚集

0 码力 | 38 页 | 655.38 KB | 1 年前
3

共 26 条前往

页

分类

语言

格式

Pivotal Greenplum 5：新一代数据平台

Greenplum Database 管理员指南 6.2.1

Greenplum on Kubernetes 容器化MPP数据库

Greenplum 排序算法

Greenplum开源MPP数据库介绍

Greenplum 6新特性: 在线扩容工具GPexpand剖析

Greenplum 精粹文集

Greenplum数据库架构分析及5.x新功能分享

Greenplum 分布式数据库内核揭秘

Greenplum介绍