Greenplum资源管理器2017 年象行中国(杭州 站)第一期 Greenplum资源管理器 姚珂男/Pivotal kyao@pivotal.io 2017 年象行中国(杭州 站)第一期 Agenda • Greenplum数据库 • Resource Queue • Resource Group 2017 年象行中国(杭州 站)第一期 Greenplum数据库 • 基于PostgreSQL • 分布式 Parallel Processing) 2017 年象行中国(杭州 站)第一期 Greenplum数据库 2017 年象行中国(杭州 站)第一期 Resource Queue • SQL语句并发控制 • 基于cost的并发控制 • 基于priority的CPU控制 • 内存控制 2017 年象行中国(杭州 站)第一期 Running Example • CREATE RESOURCE CREATE ROLE r1 RESOUCE QUEUE rq; • SELECT * FROM gp_toolkit.gp_resqueue_status; 2017 年象行中国(杭州 站)第一期 内存控制 • virtual memory note keeping (gp_malloc) • statement_mem • gp_resqueue_memory_policy • work_mem0 码力 | 21 页 | 756.29 KB | 1 年前3
Greenplum备份恢复浅析2017 年象行中国(杭州 站)第一期 Greenplum备份恢复浅析 姓名:张文杰 邮箱:zhuodao.zwj@alibaba-inc.com 公司:阿里云 2017 年象行中国(杭州 站)第一期 Greenplum数据备份恢复: 1. 数据量较大 2. 不能完全使用Xlog日志备份 3. 需要保证数据完整性和一致性 2017 年象行中国(杭州 站)第一期 Greenplum提供了: re) --copy、psql 2. 并行备份和恢复 --gpcrondump(gpdbrestore) 2017 年象行中国(杭州 站)第一期 并⾏备份和恢复 gpcrondump gpdbrestore 2017 年象行中国(杭州 站)第一期 gpcrondump⽤法(1/3) gpcrondump -x database_name [-s| -S [--oids] [--no-owner | --use-set-session-authorization] [--no-privileges] [--rsyncable] 2017 年象行中国(杭州 站)第一期 gpcrondump⽤法(2/3) gpcrondump命令使用-K 来指定唯一时间戳来标示某个备份集 文件,其中如果当前备份目录中存在更未来的备份集,则备份报错。 gpcrondump命令使用-t 0 码力 | 17 页 | 1.29 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1........................................................................................... - 2 - 第一章:GP 数据库架构 ........................................................................................ Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 11 - 第一章:GP 数据库架构 目前 GP 数据库已经开源多年,多年来一直由 Pivotal 公司商业运营,在 2020 年,Pivotal 被兄弟公司 VMWare 收购,由 VMWare 继续运营。近年来,Greenplum Owner。默认的管理 员账户是 GP 系统的基本要素,如果没有该账户,整个数据库系统将无法运行,GP 集 群不可以使用 root 用户进行初始化,另外,没有办法限制 gpadmin 用户的访问权限, 因为这是第一个 SUPERUSER。gpadmin 用户可以绕过 GP 的所有权限限制。任何人通 过 gpadmin 登录到 GP 主机后,都可以 Read、Alter、Delete 任何数据,包括系统 表的访问和任何数据库操作,因此,保护好0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 精粹文集A Service),依靠云提供共享的、弹性、按需分配的大数据计算和存 储的服务。 Greenplum MPP 数据库从已一开始就是开放的技术,并且在 2015 年 年底已经开源和成立社区(在开源第一天就有上千个 Download), 可以说,Greenplum 已经不仅仅只是 Pivotal 公司一家的产品,我们相 信越来越多组织和个人会成为 Greenplum 的 Contributor 贡献者,随 Greenplum 集群,从最初的 50 节点,经历了两次扩展, 最终扩展到了上百节点。每次扩容,数据库的数据容量不但得到提升, 业务人员更能直观的感受到相同模型运行速度得到提升,尤其是大机 构的大模型更为明显。 第一次扩容是从 50 节点到 74 节点,完成 30TB 业务数据的导出、传输、 导入,以及 70TB 左右的索引数据创建,实际停机时间大约 3 天左右。 第二次扩容则到了上百节点。考虑到升级操作的可控性并缩短升级和 ,在同一集群中初始化 了一个新数据库,将数据从旧库导出后,再导入新库。该方案在 2 天 之内完成 57TB 压缩数据的加载和 130TB 索引数据的创建。 随着中国大数据市场的井喷 趋势,作为中国第一代大数 据 的 实 践 者,Pivotal 已 经 看 到 并 且 能 够 深 刻 的 感 觉 到,Pivotal Greenplum 必 将 成 为 更 多 客 户 的 选 择, Greenplum0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 排序算法. 22 55 67 77 79 . . . 1 6 7 8 10 . . . 输 出 缓 冲 区 输 入 缓 冲 区 27 败者树算法(GP目前使用堆): ● 1. 输入每个顺串的第一个记录作为败者树的叶子节点。建立初始化败者树。 ● 2. 两两相比较,父亲节点存储了两个节点比较的败者(节点较大的值);胜利者 (较小者)可以参与更高层的比赛。这样树的顶端就是当次比较的冠军(最小 释放内存 36 ● ExecSort: 从下层Outer节点读取所有元组,并传递给tuplesort模块进行排序 排序节点 37 TupleSort是排序节点的核心,算法主要阶段: ● 第一阶段初始化TupleSort,通过调用函数tuplesort_begin_common,生成 Tuplesortstate。Tuplesortstate用于描述排序所需的信息 ● 第二阶段插入元组 有序,但Receiver端也需要保证数据全局有序。 Sorted Motion 1 4 7 8 2 3 6 9 1 4 2 3 Sender1 Sender2 Receiver1 47 ● 首先读取每个Sender的第一个元素,之后在Receiver端进行归并排序 Sorted Motion 1 2 3 1 2 4 2 4 3 4 6 1 1 2 48 ● 内排序 • 快速排序 • 堆排序 ● 外排序0 码力 | 52 页 | 2.05 MB | 1 年前3
Greenplum 介绍基于世界上最先进的开源数据库 PostgreSQL。 2015 年 10 月 Pivotal 正式把投资超过 10 年的 Greenplum 开源,采用 Apache 2 协议,成为世界 上第一款成熟的开源 MPP 数据库。开源之后,Greenplum 社区发展活跃,短短 2 年左右,在全 球有上百来自美国、中国、俄罗斯、日本、英国、德国、芬兰、瑞士等国家的贡献者,获得社会 各界的广泛关注。其中 开发中,通过使用站立会议、 回顾会议、结对编程、持续集成、测试驱动、单周迭代等敏捷方法建立了高效的快速反馈系统, 大大提高了产品的质量和客户的满意度。Greenplum 5.0 是开源之后发布的第一个稳定版本,大 约保持 1 个半月一个版本的发布速度。Greenplum 主干分支(master)开发非常活跃,众多社区 期待的特性稳健推进中,包括内核升级、新课题,处于业界领先地位。 Greenplum0 码力 | 3 页 | 220.42 KB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考三大Greenplum集群,共使用 51 台服务器资源 Ø 12台虚拟机,39台物理机 17 Greenplum现状说明 三大Greenplum集群定位分类 • 公司IDC_01机房Greenplum体系 Ø 公司第一套Greenplum集群,网络环境为千兆网 Ø 数据来源为OLTP库,针对小数据量传输和计算,部分实时交互操作 Ø 以对账业务为主,统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø Greenplum运维体系 系统状态监控 - gpcc -公司IDC_03机房 27 Greenplum运维体系 数据库备份 • 配置与结构备份 Ø 多机房级联备份 Ø Greenplum在本机进行第一次备份 Ø 备份通过rsync传输到同机房ETL服务器 Ø 各机房ETL服务器在备份到备份服务器 • 结果数据备份 Ø Greenplum集群与postgresql集市备份 Ø 结果数据csv文件备份0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum开源MPP数据库介绍Yara 发起 Greenplum项目,从 PostgreSQL 8 分支,做成 MPP架构 Ø 2010年被EMC收购 Ø 2012年成为Pivotal的一部分 Ø 2015年开源,可能是世界上第一个成熟商用的开源 MPP数据仓库 Ø 2019年底跟随Pivotal被VMware收购 Confidential │ ©2022 VMware, Inc. 5 谁在用Greenplum? Ø0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum 分布式数据库内核揭秘Greenplum 分布式数据存储与多态存储 Hash/Randomly/Replicated Confidential │ ©2021 VMware, Inc. 8 数据存储分布化是分布式数据库要解决的第一个问题。 通过将海量数据分散到多个节点上,一方面大大降低了单个节点处理的数据量,另一方面也为处理 并行化奠定了基础,两者结合起来可以极大的提高系统的性能。譬如在 100 个节点的集群上,每 个节点仅保存总数据量的0 码力 | 31 页 | 3.95 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议committed until all of its log records(including its commit record) have been written to stable storage. 第一点:Steal policy。更新non-volatile storage中的页面时,必须记录undo log。保 证事务的原子性。 第二点:No-Force policy。提交事务时,必须记录redo0 码力 | 42 页 | 2.12 MB | 1 年前3
共 14 条
- 1
- 2













