Greenplum 6新特性:
在线扩容工具GPexpand剖析Greenplum 6新特性: 在线扩容工具GPexpand剖析 杜佳伦 (jdu@pivotal.io) 大纲 • Greenplum 集群部署 • GPExpand简介与具体用法 • Greenplum 6中GPExpand的改进与实现 Greenplum 集群部署 Greenplum 集群部署 • gp_segment_configuration 字段名 描述 dbid distclass 分布列的操作类 GPExpand简介与具体用法 • GPExpand是Greenplum的扩容工具,可以为集群增加新的节 点来支持更大容量的存储和更高的计算能力。 • 随着Greenplum一起安装发布,在$GPHOME/bin下面,和其 他辅助工具,如gpstart,gpstop,gpactivatestandby一样,是一个 用python写的命令行脚本。 GPExpand简介与具体用法 减少重分布数据移动量 – Jump Consistent Hash ▪ 均匀性:通过概率做到均匀分布 ▪ 稳定性:在相同集群大小下,同一个Tuple每次计算结果相同 ▪ 单调性:扩容过程中,旧节点之间没有数据迁移 ▪ 高效性:对于集群大小为N的时候,时间复杂度为Log(N) – 更多算法细节请参考链接。https://arxiv.org/pdf/1406.2294.pdf – 通过GUC gp_use_legacy_hashops0 码力 | 37 页 | 1.12 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum......................................................................................... 8 完善的生态工具链 ................................................................................................. 的管理体验。 • 安全容器方案:iSulad+shimv2+StratoVirt 安全容器方案,相比传统 docker+qemu 方案,底噪和启动时间 优化 40%。 • 双平面部署工具 eqqo:ARM/X86 双平面混合集群 0S 高效一键式安装,百节点部署时间<15min。 3. 探索场景创新 边缘计算:发布面向边缘计算场景的版本 openEuler21.09Edae Embedded,镜像大小<5M,启动时间<5S。 4. 繁荣社区生态 友好卓面环境:UKUDDEXfce 卓面环境,丰富社区卓面环境生态。 • 欧拉 DevKit:支持操作系统迁移、兼容性评估、简化安全配置 secPaver 等更多开发工具。 Greenplum:新一代 HTAP 数据平台 Greenplum 自 2006 年发布第一个版本以来,就以精巧架构、简单易用、运行稳定、优异性能、环境适应性强在0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 介绍一次打包到处运行的平台:部署灵活,不受限于硬件环境和平台,无论裸机、私有云、公 有云均可部署。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定, 从而允许客户灵活选择最适合的方案,降低未来的迁移代价,而开发、运维人员无需要学 习新的数据库处理技术,人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台:支持各种数据源,包括 Kafka、Hadoop、HIVE、 HBase、 C 等。 ● 支持标准的平台:支持 SQL、JDBC 和 ODBC 等行业标准。经过半个多世纪的发展, SQL 成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache ableau、Anaconda、 Microstrategy、Boundless、Zattset、Datometry 等,涵盖 ETL、商业智能、高级分析、可视化、 集成分析、GIS 数据处理、迁移、安全和管理等各个领域。 更多信息请访问 greenplum.cn。0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum 精粹文集基 本 上 99% 都 可 以 在 Greenplum 上 使 用, 例 如 odbc、jdbc、oledb、perldbi、python psycopg2 等,所以 Greenplum 与第三方工具、BI 报表集成的时候非 常容易;对于 postgresql 的 contrib 中的一些常用模块 Greenplum 提 供了编译后的模块开箱即用,如:oraface、postgis、pgcrypt 查询计划执行是并行的、索 引的建立和使用是并行的, 统计信息收集是并行的、表 关联(包括其中的重分布或 广播及关联计算)是并行的,排序和分组聚合都是并行的,备份恢复 也是并行的,甚而数据库启停和元数据检查等维护工具也按照并行方 式来设计。得益于这种无所不在的并行,Greenplum 在数据加载和数 据计算中表现出强悍的性能,某行业客户对此深有体会 : 同样 2TB 左 右的数据,在 Greenplum 中不到一个小时就加载完成了,而在用户传 需要预先将数据装载到 DataFrames 模型中; 基本上都缺少索引和存储过程等特征 除 HAWQ 外,大多对于 ODBC/JDBC/DBI/OLEDB/.NET 接口的支持 有限,与主流第三方 BI 报表工具的兼容性不如 MPP 数据库 SQL-On-Hadoop 不擅长于交互式(interactive)的 Ad-hoc 查询, 大多通过预关联的方式来规避这个问题;另外,在并发处理方面的能 力较弱。高0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum介绍所有的用户连接都是直接连接到master服务器上的。 Greenplum数据库是基于PostgreSQL数据库的,所以 可以用PostgreSQL数据库的工具来连接Greenplum数 据库,如java程序可以使用PostgreSQL的jdbc驱动来 访问Greenplum数据库,也可以使用psql工具或 pgadminII来管理Greenplum。 Greenplum架构: Master介绍 Greenplum的Master数据库也是一个被改造过的 sales SET DISTRIBUTED RANDOMLY; ALTER TABLE sales SET WITH (REORGANIZE=TRUE); 重分布代价比较大,一般是通过迁移segment节点的方 式完成加节点。 GP支持bitmap索引 PostgreSQL不支持bitmap 索引,greenplum支持 bitmap索引。 CREATE INDEX0 码力 | 38 页 | 655.38 KB | 1 年前3
Greenplum Database 管理员指南 6.2.1本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部分内容都经过编者重新考量和实测验证,有些观点与官方手册有 出入,仅代表编者本人观点,与官方手册无关。本书中可能会提及一些非官方的命令和 工具等,仅用于讲解相关知识,如有缺失相关细节的情况,请谅解。 致读者 如果您在阅读和参考本书的过程中发现有任何不妥之处,或者有任何的建议和意见, 欢迎联系编者,本书主要针对 GP 数 ... - 44 - Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 4 - 第三方客户端工具 .................................................................................................. ....................................................................................... - 410 - 命令工具与 admin_group 的 CONCURRENCY 属性 ......................................... - 410 - 资源队列管理内存等资源 .....0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台体产品方向产生影响,而这又会加快产品创新。 客户能够在群集中的一组初始服务器上部署 Pivotal Greenplum,并能在数据存储和用户需求增加时扩充配置中的服务器数 量,且无需卸载再重新加载数据。随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Pivotal Greenplum 目前可在 Amazon Web Services、Microsoft Azure 和 Google 云平台上运行,并且同时支持自带使用授权 架构化查询语言性能提升 Pivotal Greenplum 5 对 SQL 查询处理进行了多项改进。广受欢迎的 SQL 结构——相关子查询(即嵌套在另一查询内的查 询)可使用来自外部查询的值。鉴于业界各大 BI/ 报告工具对子查询的广泛使用,这可以说是 GPORCA 中最重要的一项改 进了。在一些大型数据集中,对于外部查询所处理的每一行,系统都要对子查询进行一次计算,因此执行过程可能极为漫长。 GPORCA 的架构设0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商203 204 205 206 访问 Hive 访问 HBase 使⽤ 使⽤ pg_dump 迁移数据 迁移数据 安装 greenplum-db-clients 使⽤ pg_dump 导出数据 使⽤ psql 重建数据 利⽤ 利⽤ hdfs 外部表迁移数据 外部表迁移数据 1. 在原 greenplum 集群中创建 hdfs pxf 可写外部表 2. 将原 greenplum 概览 产品架构 快速上⼿ 操作指南 访问UDW数据仓库 数据导⼊ 开发指南 udw优化指南 表膨胀 UDW中Json类型 接⼊第三⽅ BI ⼯具 UDW 使⽤案例 Pxf 扩展功能 迁移数据 使⽤ pg_dump 使⽤ pxf 外部表 FAQs 数据仓库价格 概览 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 6/206 34567 (3 rows) PXF 扩展 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 197/206 使⽤ 使⽤ pg_dump 迁移数据 迁移数据 安装 安装 greenplum-db-clients 为了获取 pg_dump ⼯具,需要安装 greenplum-db-clients,安装⽅法可以查看 https://gpdb.docs0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum 分布式数据库内核揭秘Consistent Hash)分布策略。 哈希分布 当增加一个新的节点时,需要对原有数据进行重新映射。一致性哈希则保证了在重新映射的过程追 中,tuple 要么保留在原有节点中,要么迁移至新的节点中,从而实现最小数据迁移。 Confidential │ ©2021 VMware, Inc. 11 随机分布则采用随机的方式将数据存储到不同的节点。当不确定一张表的哈希分布键,或者是不存 在合理的避免0 码力 | 31 页 | 3.95 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议分布式事务的创建、状态迁移等 • QD向QE发起两阶段提交 • 分布式快照 • QD向QE发送全局快照信息 • Writer QE和Reader QE共享本地快照信息 • distributed log:分布式事务提交日志 • 用于判断分布式事务是否提交,作用和PG 的commit log类似,基于simple LRU实现 • 分布式死锁检测 • 本地事务的管理:创建、提交、状态迁移 等 •0 码力 | 42 页 | 2.12 MB | 1 年前3
共 20 条
- 1
- 2













