Greenplum资源管理器
2017 年象行中国(杭州 站)第一期 Greenplum资源管理器 姚珂男/Pivotal kyao@pivotal.io 2017 年象行中国(杭州 站)第一期 Agenda • Greenplum数据库 • Resource Queue • Resource Group 2017 年象行中国(杭州 站)第一期 Greenplum数据库 • 基于PostgreSQL • 分布式 corruption => PANIC 2017 年象行中国(杭州 站)第一期 Resource Queue • Cost is tricky – 没有明确的定义 – 不同优化器不一致 – 优化器不能被纳入资源管理器 2017 年象行中国(杭州 站)第一期 Resource Queue • Priority is rough – 不能精确控制CPU – CHECK_FOR_INTERRUPTS – BackoffBackendTick 空闲group配额会被抢占 – 精确控制 2017 年象行中国(杭州 站)第一期 Resource Group • Memory – Not using CGroups – 重构resource queue内存管理 – 严格资源隔离 – statement_mem控制spill – 每个group内做redzone和runaway detection 2017 年象行中国(杭州 站)第一期 Resource0 码力 | 21 页 | 756.29 KB | 1 年前3Greenplum Database 管理员指南 6.2.1
Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 1 - Greenplum Database 管理员指南 版本 V6.2.1 2020 年 09 月 27 日 欢迎关注 Greenplum 官方微信公众号和加入官方社区技术讨论群: Greenplum 做各种补丁 脚本,也看到了 Greenplum 的大幅进步,甚至我们以前的小技巧也不再需要,持续的 进步,带来的是生态的蓬勃发展。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 2 - 序言 术语约定 GP : Greenplum 数据库 Master 陈淼 电邮: miaochen@mail.ustc.edu.cn Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 3 - 目录 Greenplum Database 管理员指南 ...................................................0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum 新一代数据管理和数据分析解决方案
1 新一代数据管理和数据分析 解决方案 关于Greenplum公司 • Greenplum是一家数据库软件公司,在数据处理和 BI/DW领域,提供容量 最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥,加利福尼亚州,美国,成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站: www.greenplum greenplum.com www.greenplum-china.com Greenplum:简介 Greenplum数据引擎软件为新一代数 据仓库所需的大规模数据和复杂查询功 能所设计 3 推动数据依赖型企业的发展 全球各地的一些Greenplum客户 4 亚太地区 欧洲、中东、非洲 北美 中国的客户 5 金融 交通 互联网 其它 Teradata Netezza Oracle Greenplum 千万亿字节 万亿字节 千兆字节 行业商务智能解决方案的实例 政府 电信 金融服务 公民服务 国家安全 电子政务 法规实施和监管 人力资本管理 信息传播 合规性报告 资产组合分析 客户报表 电汇通知 分部记分卡 客户关系管理、收 购和盈利率 欺诈检测 欺诈分析 客户流失分析 响应时间 流量分析 产品关联/捆绑 零售 存储运营分析 客户忠诚度计划 协作规划和预估0 码力 | 45 页 | 2.07 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
copy加载数据 外部表并⾏加载数据 从hdfs加载数据 从mysql中导⼊数据 从oracle中导⼊数据 从ufile加载数据 开发指南 开发指南 1、连接数据库 2、数据库管理 3、模式管理 4、表格设计 5、加载数据 6、分区表 7、序列 8、索引 9、 ANALYZE/VACUUM 10、常⽤SQL⼤全 12、常⽤SQL命令 13、⽤⼾⾃定义函数 ⽬录 Greenplum数据仓库 接收客⼾端的连接请求 负责权限认证 处理 SQL 命令 调度分发执⾏计划 汇总 Segment 的执⾏结果并将结果返回给客⼾端 3. Compute Node: Compute Node 管理节点的计算和存储资源 每个 Compute Node 由多个 Segment 组成 Segment 负责业务数据的存储、⽤⼾ SQL 的执⾏ ⾼可⽤ ⾼可⽤ 产品架构 Greenplum数据仓库 际数据⼤⼩选择合适的节点。 3.设置数据仓库信息 必选项有数据仓库名称、DB管理员⽤⼾名、管理员密码。可选项有默认DB,默认DB的名称为dev,你可以选择除了“test”、“postgres”、“template”、“template0”、“template1” 、 “default”之外的其他名称。 DB管理员⽤⼾名不能为“postgres”。端⼝固定为 5432,暂不提供修改。 快速上⼿0 码力 | 206 页 | 5.35 MB | 1 年前3Greenplum 精粹文集
——greenplum,因此而得名)召集了十几位业界大咖(据 说来自 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum Postgresql 数 据库实例同时开展并行计算。而且,这些 Postgresql 之间采用 share- nothing 无共享架构,从而更将这种并行计算能力发挥到极致,除此之 外,MPP 采用两阶段提交和全局事务管理机制来保证集群上分布式事 务的一致性,Greenplum 像 Postgresql 一样满足关系型数据库的包括 ACID 在内的所有特征。 从上图可以看到,Greenplum 的最小并行单元不是节点层级,而是在 IO 能力。 Greenplum 单个节点上运行能力比其它数据库也快很多,如果运行在 多节点上,其提供性能几乎是线性的增长,这样一个集群提供的性能 能够很轻易的达到传统数据库的数百倍甚至数千倍,所管理数据存储 规模达到 100TB~ 数 PB,而你在硬件上的投入,仅仅是数台一般的 X86 服务器和普通的万兆交换机。 Big Date2.indd 6 16-11-220 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum 编译安装和调试
command+R 进入恢复模式 3. 从 Utilities 菜单选择 Terminal 4. 执行 csrutil disable 5. 重启操作系统 // 安装Greenplum管理脚本依赖的 Python 包 $ wget https://bootstrap.pypa.io/get-pip.py $ sudo python get-pip.py $ sudo pip install Greenplum 源代码 $ git clone https://github.com/greenplum-db/gpdb Greenplum Database 编译和运行依赖于各种系统库和Python库。需要先安装这些依赖: $ sudo yum groupinstall 'Development Tools' # GCC, libtools etc $ sudo yum install 这个python包没有安装,但是使用 python 验证,发现已经安装了。 而使用 ssh 验证发现使用了不同路径的 python。 2.2.8 小技巧 Greenplum使用 Bash 和 Python 脚本初始化集群和管理集群。可以通过在合适的地方设置日志或 者调试信息可以帮助分析某些难以解决的问题。 ● 集群初始化工具 gpinitsystem 是Bash脚本工具,有些时候它的报错信息很不清楚。这个 时候可以0 码力 | 15 页 | 2.07 MB | 1 年前3Pivotal Greenplum 最佳实践分享
shmmax = 1000000000 kernel.sem = 250 512000 100 2048 Redhat 6.2以后,内核增加了hugepage大页内存管理,关闭hugepage可以提高混合负载管理性能 设置办法:修改local脚本 For SUSE /etc/init.d/boot.local For RHLE /etc/rc.d/rc.local • 查询视图GP_TOOLKIT.GP_BLOAT_DIAG可监控垃圾空间的膨胀系数 • REINDEX:回收索引的垃圾空间 AGE监控和管理 PostgreSQL的MVCC事务语意依赖于比较事务ID(XID)的数值: 一条带有大于当前事务的XID的插入 XID的行版本是―属于未来的‖, 并且不应为当前事务可见。 PostgreSQL使用特殊的 X 1000000000, AGE大于10亿停止工作,等待vacuum执行 数据库对象数上限的最佳实践 GPDB内部的对象:所有的表(包括分区表)、索引、视图等都称为对象 GPDB最佳实践所推荐的对象管理要求是:一个数据库内对象不要超过10 0000个 最佳实践是出于对系统性能和稳定性因素建议对pg_class 所维护的对象数进行约束 减少对象数的方法: – 提高分区粒度 –0 码力 | 41 页 | 1.42 MB | 1 年前3Greenplum介绍
可以用PostgreSQL数据库的工具来连接Greenplum数 据库,如java程序可以使用PostgreSQL的jdbc驱动来 访问Greenplum数据库,也可以使用psql工具或 pgadminII来管理Greenplum。 Greenplum架构: Master介绍 Greenplum的Master数据库也是一个被改造过的 PostgreSQL数据库,它包含了整个分布 式数据库中的 所 的特定数据集的本地数据库业务。 所有的数据库操作,如表扫描、表连接(joins)、聚集 ( aggregations),排序,这些操作都会在所有的 segment上并行执行。每个segment执行这些操作时都 不依赖其它的segment。 除了上面这引起典型的数据库操作,Greenplum的 数据库有一个额外的操作类型,称为的motion。 motion操作就是把查询处理过程中涉及到的其它节点 上的数据在各个节点中做移动。0 码力 | 38 页 | 655.38 KB | 1 年前3Greenplum分布式事务和两阶段提交协议
Write Ahead Logging + 存储管理 Jim Gray于1981年VLDB描述了事务的原子性、一致性和持久性,在此基础上,Haerder和Reuter在1983年中提出了事务的隔离性并提出术语 “ACID”,自此,事务的ACID四个性质成为业内标准术语 8 Disk-Oriented DBMS Components 数据库管理系统组成图 Hector Garcia-Molina Ullman/Jennifer Widom《数据库系统实现》 查询编译器/ 优化器 事务管理器 DDL编译器 执行引擎 日志和恢复 并发控制 索引/文件/ 记录管理器 缓冲区管理器 缓冲区 锁表 存储管理器 存储 查询计划 对索引、文件和 记录的请求 页命令 事务命令 查询、更新 用户/ 应用 DDL命令 数据库管理员 数据、元数据、索引 日志页 读、写页 元数据、 统计数据 元数据 No-Steal Steal: 允许Buffer Pool里未提交事务所修改的脏页刷回到持久存储 No-steal: 不允许Buffer Pool里未提交事务所修改的脏页刷到持久存储中 缓冲区管理策略Buffer Management Policy 13 ■ Force策略的问题 对持久存储器进行频繁的随机写操作,性能下降。 ■ No-Steal策略的问题 不允许未提交事务的脏页换出,系统的并发量不高。0 码力 | 42 页 | 2.12 MB | 1 年前3Greenplum on Kubernetes 容器化MPP数据库
数据共享 ● 云数据库市场巨大 ● 云数据库增速巨大 ● DBasS的需求 ● 跨云的需求 云数据库实现方案 云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云 云数据库实现方案 ● 全新数据库 ○ Snowflake 容器化Greenplum部署策略 ○ Master部署策略 ○ Primary Segment部署策略 ○ Mirror Segment部署策略 ● 容器化Greenplum运维管理 ○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU Mirror Segment部署策略 ● 容器化Greenplum运维管理 ○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性 容器化分布式应用程序公共问题 容器网络管理 容器资源管理 容器镜像管理 容器调度 容器监控及自 定义操作 容器存储管理 容器化Greenplum ● 容器粒度 ○ Segment主机0 码力 | 33 页 | 1.93 MB | 1 年前3
共 23 条
- 1
- 2
- 3