Greenplum 6新特性:
在线扩容工具GPexpand剖析Greenplum 6新特性: 在线扩容工具GPexpand剖析 杜佳伦 (jdu@pivotal.io) 大纲 • Greenplum 集群部署 • GPExpand简介与具体用法 • Greenplum 6中GPExpand的改进与实现 Greenplum 集群部署 Greenplum 集群部署 • gp_segment_configuration 字段名 描述 dbid 复制表 numsegments 表分布在多少个节点上 diskkey 分布列的序号 distclass 分布列的操作类 GPExpand简介与具体用法 • GPExpand是Greenplum的扩容工具,可以为集群增加新的节 点来支持更大容量的存储和更高的计算能力。 • 随着Greenplum一起安装发布,在$GPHOME/bin下面,和其 他辅助工具,如gpstart,gpstop,gpa postgres下创建gpexpand schema(-D参数已经取消) – gpexpand schema下面会创建几张表 ▪ status —扩容状态 ▪ status_detail —将所有需要扩容的表都存到这个表里 ▪ expansion_progress —记录扩容时的状态 GPExpand简介与具体用法 • 数据重分布 – GPExpand – 会遍历postgres数据库下面gpexpand0 码力 | 37 页 | 1.12 MB | 1 年前3
Greenplum on Kubernetes
容器化MPP数据库→ 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 → 半结构化/无模式 ○ 数据隔离 → 数据共享 ● 云数据库市场巨大 ● 云数据库增速巨大 ● DBasS的需求 ● 跨云的需求 云数据库实现方案 云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 容器化Greenplum部署策略 ○ Master部署策略 ○ Primary Segment部署策略 ○ Mirror Segment部署策略 ● 容器化Greenplum运维管理 ○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU 容器化Greenplum部署策略 ○ Master部署策略 ○ Primary Segment部署策略 ○ Mirror Segment部署策略 ● 容器化Greenplum运维管理 ○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性 容器化分布式应用程序公共问题 容器网络管理 容器资源管理 容器镜像管理 容器调度 容器监控及自0 码力 | 33 页 | 1.93 MB | 1 年前3
Greenplum 介绍含实时处理、弹性扩容、混合负载、云 原生和集成数据分析等强大功能的大数据引擎。 著名分析机构 Gartner 2019 年报告中,在经典数据分析领域 Greenplum 全球排名第三,实时分 析领域全球排名并列第四。Greenplum 是两个领域中排名前十的产品中的唯一一款开源产品。 Greenplum 基于 MPP(大规模并行处理)架构构建,具有良好的弹性和线性扩展能力,并内置0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum 精粹文集技术,从硬件到软件到服务,都逃不过要接受云计算 的洗礼,不能赶上时代潮流的技术和公司都将被无情的淘汰。大数据 也要拥抱云计算,大数据将作为一种数据服务来提供(DaaS-Dataas A Service),依靠云提供共享的、弹性、按需分配的大数据计算和存 储的服务。 Greenplum MPP 数据库从已一开始就是开放的技术,并且在 2015 年 年底已经开源和成立社区(在开源第一天就有上千个 Download), 可以说,Greenplum 最终扩展到了上百节点。每次扩容,数据库的数据容量不但得到提升, 业务人员更能直观的感受到相同模型运行速度得到提升,尤其是大机 构的大模型更为明显。 第一次扩容是从 50 节点到 74 节点,完成 30TB 业务数据的导出、传输、 导入,以及 70TB 左右的索引数据创建,实际停机时间大约 3 天左右。 第二次扩容则到了上百节点。考虑到升级操作的可控性并缩短升级和 扩容时间,仍然采用新初始化集群的方案操作,在同一集群中初始化 以上,并带有掉电保护功能) 3. 计算节点服务器 由于计算节点真正的负责计算, 计算节点的硬件性能直接影响到整体 集群的性能,Greenplum 建议单个集群最开始搭建的时候最好选用相 同规格的计算服务器,后续扩容也要保证新加机器的性不能低于原有 机器,这是由于 MPP 架构本身存在木桶效应,单台机器的性能短板, 很可能导致整体集群变慢,虽然 Greenplum 可以根据具体的硬件配置, 初始化的时候调整每台0 码力 | 64 页 | 2.73 MB | 1 年前3
基于 Greenplum 打造SaaS化电商服务平台2018.3HDB4PG 2017.1报表全面迁移至GP 2017.6集群拆分 2018.9全面切换HDB4PG 2018.6ADB储备、2019.7上线 HDB4PG •数据压缩 •弹性扩容 •成熟稳定 •性能良好 •阿里云支持 THANKS 谢 谢 聆 听 2018.06.26 by 花名 www.jushuitan.com0 码力 | 7 页 | 547.94 KB | 1 年前3
Greenplum Database 管理员指南 6.2.1.................. - 334 - 第十六章:扩容 ...................................................................................................................... - 336 - 扩容概述................................ ....................... - 337 - GP 数据库扩容规划 ........................................................................................................ - 341 - 扩容准备工作检查清单 ............................... ......................................................................................... - 354 - 扩容配置文件的格式 ...........................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商产品架构 产品架构 云数据仓库产品架构 ⾼可⽤ 快速上⼿ 快速上⼿ ⼀、创建数据仓库 ⼆、连接数据仓库 操作指南 操作指南 关闭数据仓库 启动数据仓库 重启数据仓库 查看数据仓库详情 扩容数据仓库 更改数据仓库密码 续费 删除数据仓库 查看操作⽇志 查看监控 ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 2/206 创建好数据仓库之后怎么连接到UDW? UDW⽀持从mysql导⼊数据吗? HDFS/Hive与UDW之间可以导⼊导出数据吗? UDW中怎么kill掉正在执⾏的SQL语句? 如何通过外⽹访问UDW? 节点扩容时数量有没有什么限制? 数据仓库价格 数据仓库价格 ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 5/206 概览 概览 产品架构 优刻得 39/206 该⻚⾯上可以看到数据仓库的详细信息,包括db信息以及节点信息。在这个⻚⾯上也可以启动、停⽌或重启数据仓库。点击数据仓库名称右边的“更改”,可更改当前数据仓库名称。 扩容数据仓库 扩容数据仓库 操作指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 40/206 操作指南 Greenplum数据仓库 UDW Copyright0 码力 | 206 页 | 5.35 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum......................................................................................... 10 集群在线扩容 .................................................................................................. SELECT 和 INSERT 提升比较 大。一个优化有关 procarray 锁,另一个优化和事务有关,大多数 OLTP 查询带有主键或者分布键,这种查询不需要 两阶段提交(2PC)。 集群在线扩容 Greenplum 6 实现了不停库在线增加新节点, 期间不会中断正在运行的所有查询;另外采用了 Jump Consistent Hash 的一致性哈希算法, 在数据重分布期间,每个旧节点仅移动出需要移动的数据到新节点上0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum上云与优化支持OSS外部表 无此设计 地理信息支持 支持(自带PostGIS) 不支持 分区表支持 支持 不支持 数据类型 支持所有PostgreSQL 9.0以下类型 支持11个PostgreSQL类型 横向扩容 支持 支持,需要停机(数分钟) 索引 支持(B-tree、Bitmap) 不支持 2016Postgres中国用户大会 推荐应用架构 应用服务器 ECS VPC ApsaraDB for0 码力 | 26 页 | 1.13 MB | 1 年前3
Pivotal Greenplum 最佳实践分享seg –F进行全量同 步,全量同步是在两个节点之间全量拷贝文件,超过10 0000个对象,在数据目录下地文件数会可能达到上百万 个档,这些文件的拷贝需要花费很长时间 – 使用gpexpand扩容节点时,对象数多,对应到每个实例下的文件数非常多,将这些目的档重分布到新扩展的节 点时间会很长 – 系统表(pg_class,pg_attribute)太大,影响系统工作效率 – 系统元数据0 码力 | 41 页 | 1.42 MB | 1 年前3
共 11 条
- 1
- 2













