小部件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 精粹文集

提供强大的并行数据计算性能和海量数据管理能力。这个能力主要指的是并行计算能力，是对大任务、复杂任务的快速高效计算，但如果你指望 MPP 并行数据库能够像 OLTP 数据库一样，在极短的时间处理大量的并发小任务，这个并非 MPP 数据库所长。请牢记，并行和并发是两个完全不同的概念，MPP 数据库是为了解决大问题而设计的并行计算技术，而不是大量的小问题的高并发请求。再通俗点说，Greenplum 没有统计信息，不能做基于 cost-base 的优化；MPP 数据库可以利用统计信息很好地进行并行计算优化。例如，MPP 对于不同分布的数据可以在计算中基于 Cost 动态决定最优执行路径，如采用重分布还是小表广播。 Big Date2.indd 13 16-11-22 下午3:38 14 ·Reduce 效率对比：对比于 MPP 数据库的 SQL 执行器 -executor，Mapreduce 技术支持；MPP 数据库可以基于 COST 来自动选择 Hash join、Merger join 和 Nestloop join，甚至可以在 Hash join 通过 COST 选择小表做 Hash，在 NestloopJoin 中选择 index 提高 join 性能等等。 MPP 数据库对于 Aggregation（聚合）提供 Multiple-agg、Group- agg、sort-agg

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

，我们跟随着 Greenplum 的成长，见证了 Greenplum 从闭源到开源的成长历程，一路给 Greenplum 做各种补丁脚本，也看到了 Greenplum 的大幅进步，甚至我们以前的小技巧也不再需要，持续的进步，带来的是生态的蓬勃发展。 Greenplum Database 管理员指南 V6.2.1 版权所有：Esena(陈淼 +86 18616691889) 编写：陈淼 ......................................................................................... - 364 - 小版本升级................................................................................................ ......................................................................................... - 364 - 小版本升级步骤 .............................................................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

“未来”的数据 —— 趋势分析 4 数据仓库体系架构业务数据与数据特点 • 现在的数据 —— OLTP Ø实时，在线系统，客户使用 Ø事务小，频率高，并发高 • 过去的数据 —— OLAP Ø非实时（T+1，或小时级），离线系统，分析决策 Ø事务大，频率相对小，并发低 • 未来的数据 —— 趋势分析 Ø非实时，离线+在线流系统，趋势分析 Ø算法分析，持续计算 5 数据仓库体系架构 OLAP场景举例分区表的分区键性能不佳 • 加载易出现问题 Ø 文件加载出现特殊字符 Ø 数据校验标准问题 35 Greenplum开发规范业务库表设计规范 • GP中表的范围 Ø 最大时间为年表 Ø 数据量小，可用单表 • 多种表类型 Ø 堆表（选好常用列作为三列键） Ø 分区表（按照 yyyymmdd 分区，建议都添加 datenum int8） Ø append表 Ø 列存储表 Ø 多种表类型结合

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 排序算法

ot ● 分割：重新排序数组，所有比基准元素小的元素排放到基准元素之前；所有比基准元素大的元素排放到基准元素之后。分割完成后，我们完成了对基准元素的排序，即基准元素在数组中的位置不再改变 ● 递归排序子序列：递归地将小于基准元素的子序列和大于基准元素的子序列分别进行排序快速排序 8 ● 快速排序算法每次选取一个基准元素，将比基准元素小的排到基准元素左边，比基准元素大的排到基准元 6 8 9 5 9 2 1 3 6 8 20 ● 堆排序算法堆排序 21 ● 归并排序分为两个阶段，阶段一是分割阶段，将原始待排序数据分成若干个顺串。阶段二是合并阶段，将所有小顺串合并成一个包含所有数据的大顺串外排序之归并排序 1 7 4 8 1 7 4 8 1 4 7 8 待排序数据分割阶段合并阶段 22 ● 问题一：分割阶段只需要顺序扫描一次外存，最简单的策略是读取外存数据，加

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

物理模型经验分享物理模型对于系统性能有很大影响，因此需要我们特别关注。以下来自于在某大型银行的使用经验：行存储和列存储： • 避免过多使用列存储的原因是防止小档数过多。 • 列存储能够提升查询性能，对于更新和全字段类操作性能反而会下降 • 对于少数频繁查询的宽表，例如交易表、帐户表、客户表等采用列存储，其它表采用行存储数据压缩： • 在金 – Merge join（排序关联）  大多数关联都是Hash关联，关联是小表被Hash到内存中，如果涉及数据表规模较大，内存不足时， GPDB将会生成临时文件，这些档会放在segment的实例目录下pgsql_tmp目录下，GPDB建议保留 30%左右的空间作为临时空间  避免小表Left Join大表修改为先Inner Join再Left Join的方式，避免大表被Hash

0 码力 | 41 页 | 1.42 MB | 1 年前
3
Brin Index主Greenplum 7中的理论与实现

VMware, Inc. Brin的优势和劣势优势：占用空间小创建快劣势：只有在数据具有一定分布特点时才有用 Confidential │ ©2021 VMware, Inc. Brin的体积 Brin tuple: 20bytes Block Range: 8K * 20 = 160K Brin比Heap小8000倍 1 TB的Heap表只需要125M的Brin [1

0 码力 | 32 页 | 1.04 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

与 ORACLE系统加载耗时比较如下: 文件名文件描述 ORACLE GREENPLUM GP提升倍数 Staging 加载时间文件大小记录条数 Staging 加载时间文件大小记录条数 SDFISM ST 活期存款账户信息表 38分 1.29G 1156932 4 46秒 1.39G 11621418 50x SDFISM SC

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum 6新特性: 在线扩容工具GPexpand剖析

可以并行初始化每个新节点 – 并行执行expand表 ▪ 对表执行expand之后要更新gpexpand.status_detail表的状态 ▪ Greenplum 5及之前的版本对表的更新操作是串行的，所以大量小表做expand会在更新状态表时遇到瓶颈 ▪ Greenplum 6中因为全局死锁检测的引入可以对heap表做并行更新改进与实现 • 扩容期间对查询的影响 – 新增节点阶段无法修改catalog

0 码力 | 37 页 | 1.12 MB | 1 年前
3
Greenplum 编译安装和调试

named psutil 原因是 psutil 这个python包没有安装，但是使用 python 验证，发现已经安装了。而使用 ssh 验证发现使用了不同路径的 python。 2.2.8 小技巧 Greenplum使用 Bash 和 Python 脚本初始化集群和管理集群。可以通过在合适的地方设置日志或者调试信息可以帮助分析某些难以解决的问题。 ● 集群初始化工具 gpinitsystem

0 码力 | 15 页 | 2.07 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

期间不会中断正在运行的所有查询；另外采用了 Jump Consistent Hash 的一致性哈希算法, 在数据重分布期间，每个旧节点仅移动出需要移动的数据到新节点上, 得益于创新的分布式死锁检测，对于大量小表做并行重分布性能提升非常明显。 Greenplum VACUUM 提升将在 Greenplum 7 中实现此功能，能够做到： 1 https://arxiv.org/pdf/2103

0 码力 | 17 页 | 2.04 MB | 1 年前
3

共 10 条前往

页

分类

语言

格式

Greenplum 精粹文集

Greenplum Database 管理员指南 6.2.1

并行不悖- OLAP 在互联网公司的实践与思考

Greenplum 排序算法

Pivotal Greenplum 最佳实践分享

Brin Index主Greenplum 7中的理论与实现

Greenplum 新一代数据管理和数据分析解决方案

Greenplum 6新特性: 在线扩容工具GPexpand剖析

Greenplum 编译安装和调试

完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum