翻译状态 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum Database 管理员指南 6.2.1

多年前，编者翻译了 GP4.2.2 的 AdminGuide，如今，GP 已经历经了无数个版本更新和迭代，编者也有了更多的感悟，放眼 GP 的中文资料，为之动容，就想着再为 GP 的发展壮大多做那么一点点贡献，挤出一点时间，重新梳理和打磨这个文档，并完全根据最新的版本特性进行重新整理，希望能对中文爱好者提供一些帮助，在编写过程中，仍会参考官方文档，但绝不是简单的翻译，甚至有些内容会与官方文档不一致。 ..................................................................................... - 57 - 监控资源组状态 .................................................................................................. .................................................................................... - 78 - 检查资源队列状态 ..................................................................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

都运转起来，无共享架构将这种并行处理发挥到极致。相比一些其它传统数据仓库的 Sharedisk 架构，后者最大瓶颈就是在 IO 吞吐上，在大规模数据处理时，IO 无法及时 feed 数据给到 CPU， CPU 资源处于 wait 空转状态，无法充分利用系统资源，导致 SQL 效率低下：一台内置 16 块 SAS 盘的 X86 服务器，每秒的 IO 数据扫描性能约在 2000MB/s 左右，可以想象，20 台这样的服务器构成的机群 RAID 卡没有 cache。 Big Date2.indd 26 16-11-22 下午3:38 Greenplum 精粹文集 27 ·加强硬件的监控，所有故障中，最怕硬件半死不活的状态，曾遇到一客户，由于硬盘发生坏道，但 RAID 卡并未将其标记为 down，导致坏盘在读写性能非常差的情况下仍然对外提供服务，最终将整个集群拖慢。 ·如果客户的实际应用还存在大量较高并发的小是很简单的。这也是国内大量客户选择 Greenplum 产品的原因之一。每当有新的企业客户使用 Greenplum 产品，就会有一批新的 Greenplum 工程师被培养出来。国内的一位 Greenplum 大咖（也是翻译 Greenplum 官方资料的第一人），曾经说过：学会用 Greenplum 不难，但要用好 Greenplum 就要下一番苦工。Greenplum 数据库产品在中国一路走来，期间不乏负面声

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

SQL 资源队列设置没有一个统一的标准，具体的参数设置需要根据项目的实际运行情况，可以通过gp_toolkit.gp_resqueue_status 观察到队列的使用情况，逐步调整参数到最优状态。角色组和权限管理  在GPDB中，对象权限不能从Schema继承，新增的对象需要Grant授权给相应用户。  用户可以属于多个角色组role，用户可以从role继承权限 pg_state_acitivty的waiting状态是否为true – Select*fromgp_toolkit.gp_locks_on_relation查看在哪个资源上被锁了 – 有些时候是lock在Segment上，使用gpssh -f allhosts -e ―ps –ef |grep con#sess_id#‖查看是否有进程处于 waiting状态  解决方法： -u：不停止数据库，只加载pg_hba.conf 和postgresql.conf 中运行时参数，当改动参数配置时候使用。  -r：重启数据库 Admin常用命令  查看实例配置和状态  select * from gp_segment_configuration order by 1 ; – 主要字段说明： – dbid:唯一标识 – content：该字段

0 码力 | 41 页 | 1.42 MB | 1 年前
3
Greenplum 6新特性: 在线扩容工具GPexpand剖析

preferred_role 初始化时的值，对于一个被promote成primary的mirror节点，role 为’p’，preferred_role为’m’ mode 主从同步状态，’s’同步，’n’不同步 status 运行状态，’u’在线，’d’不在线 port 该节点的运行端口 hostname 节点的hostname address 通常和hostname相同 datadir 该节点的数据目录 postgres下创建gpexpand schema(-D参数已经取消) – gpexpand schema下面会创建几张表 ▪ status —扩容状态 ▪ status_detail —将所有需要扩容的表都存到这个表里 ▪ expansion_progress —记录扩容时的状态 GPExpand简介与具体用法 • 数据重分布 – GPExpand – 会遍历postgres数据库下面gpexpand 对表加最高级别锁（其他读写均被阻塞） – 移动数据到新节点 – 修改numsegments – 释放锁改进与实现 • numsegments的收益 – 不需要将表改成随机分布，单表查询可以做优化 – 对于Join查询，如果分布状态相同的情况下，可以被优化改进与实现 • 减少重分布数据移动量 – Greenplum 5及之前版本采用取模分布 – 节点数量发生变化后重新计算取模，移动数据量大 – 不仅存在新旧节点间的移动，旧节点之间也要移动

0 码力 | 37 页 | 1.12 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

未来的数据 —— 趋势分析 Ø非实时，离线+在线流系统，趋势分析 Ø算法分析，持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态（注册数，活跃数，并发量，峰值） Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量，不同事务特点，不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构数据流转过程 Ø 参数调整（操作系统参数，greenplum集群参数） 24 Greenplum运维体系系统状态监控 - gpcc -公司IDC_01机房 25 Greenplum运维体系系统状态监控 - gpcc -公司IDC_02 机房 26 Greenplum运维体系系统状态监控 - gpcc -公司IDC_03机房 27 Greenplum运维体系数据库备份 • 配置与结构备份 Greenplum扩展规划新业务上线流程 • 把握三个方面，解决三个问题 Ø 确认数据来源与传输，解决原始数据从那里来的问题 Ø 确认数据如何计算，解决数据存储和计算加工的问题 Ø 确认数据集市状态，解决结果数据最终展示的问题 • 实现方式 Ø OLAP与OLTP不同，没有非常固定的方式 Ø 没有事务性工作 Ø 只有针对每个业务需求的架构新、探索性、创新性工作 41 Greenplum扩展规划

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum分布式事务和两阶段提交协议

事务中的操作要么全部正确执行，要么完全不执行。 Write Ahead Logging，分布式事务：两阶段提交协议 Consistency 一致性数据库系统必须保证事务的执行使得数据库从一个一致性状态转移到另一个一致性状态。（满足完整性约束）实现对A、I、D三个属性的支持 Isolation 隔离性多个事务并发地执行，对每个事务来说，它并不会感知系统中有其他事务在同时执行。多版本并发控制Multi-Version 分布式事务的创建、状态迁移等 • QD向QE发起两阶段提交 • 分布式快照 • QD向QE发送全局快照信息 • Writer QE和Reader QE共享本地快照信息 • distributed log：分布式事务提交日志 • 用于判断分布式事务是否提交，作用和PG 的commit log类似，基于simple LRU实现 • 分布式死锁检测 • 本地事务的管理：创建、提交、状态迁移等

0 码力 | 42 页 | 2.12 MB | 1 年前
3
Greenplum 排序算法

31 + 57 = 232个基础顺串：每个顺串平均4.07次移动 35 ● ExecInitSort：初始化SortState结构体排序节点类型字段说明 ScanState ss 查询状态信息 bool randomAccess 排序后的元组是否需要随机访问 bool bounded 是否是TopK查询 int64 bound TopK查询中K的值 bool sort_Done ● 第二阶段插入元组，每次调用函数puttuple_common，会根据当前TupleSort的状态，选择将元组插入到不同的位置。 ● 第三阶段负责实际的排序逻辑，通过调用函数tuplesort_performsort，实现对已经存储好的输入元组进行排序。根据当前TupleSort的不同状态，输入元组可能存储在内存或者文件中，TupleSort会选择使用不同的算法进行排序。 ● 第四阶第四阶段负责输出排序后元组，在排序完成之后，每次调用函数 tuplesort_gettuple_common，即可获取排序后的元组。同样，根据当前 TupleSort的不同状态，算法选择不同的方式返回有序元组。 TupleSort 38 TupleSort 39 ● 多键排序是Greenplum特有的一种排序方式，它的优势主要是对具有相同前缀的字符串进行高效排序。 ● 在现实世界里，拥有相

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Greenplum on Kubernetes 容器化MPP数据库

Kubernetes 计算资源 Pod ● Pod ○ 计算任务 → 容器 → Pod ○ 资源分配：CPU，内存，磁盘 ○ 资源调度：Pod → Node ● Pod管理 ○ 无状态计算资源组：Deployment ○ 有状态计算资源组：StatefulSet ● Pod持久存储 ○ 通过PVC申请PV存储资源 ● StatefulSet ○ Pod网络地址不变 ○ Pod与PV映射关系不变自定义资源类型 ○ Custom Resource Definition (CRD) ○ 和内置资源用法一致 ● 自定义控制器 ○ Custom Controller (Operator) ○ 根据资源状态封装对资源的自定义操作 Greenplum CRD $ kubectl create -f my-gp-instance.yaml Greenplum Operator ● Kubernetes

0 码力 | 33 页 | 1.93 MB | 1 年前
3
Greenplum资源管理器

PANIC – 需要睡眠/唤醒机制 – Count + LWLock + Lock • Count：记录并发数 • LWLock：保护count • Lock：睡眠/唤醒，死锁检测，状态报告 – 维护Lock在共享内存的状态 – bug => lock table corruption => PANIC 2017 年象行中国（杭州站）第一期 Resource Queue • Cost is tricky

0 码力 | 21 页 | 756.29 KB | 1 年前
3
Greenplum备份恢复浅析

key constraints等数据库对象，master产生的全局对象包含角色和表空间等 2. Regular files 包括各类辅助文件，例如存储着create database语句的文件，备份状态报告文件等其中最核心的每个segment的数据文件，命名格式如下： xxx_gp_dump_0_2_20170206160253.gz 其中XXX表示用户定义的文件前缀，0代表是非master节点，2代表该文件产生的 gpcrondump实际是对gp_dump的封装，具体步骤如下： 1. 读取参数，检测合理性 2. master执行对pg_class加锁操作 3. 封装并执行gp_dump命令 4. 检测每个segment备份状态 5. 其他操作，例如备份全局对象（角色和表空间）、备份config文件、清理旧备份集以及VACCUM等 2017 年象行中国（杭州站）第一期 gp_dump具体实现 2017 年象行中国（杭州

0 码力 | 17 页 | 1.29 MB | 1 年前
3

共 15 条前往

页

分类

语言

格式

Greenplum Database 管理员指南 6.2.1

Greenplum 精粹文集

Pivotal Greenplum 最佳实践分享

Greenplum 6新特性: 在线扩容工具GPexpand剖析

并行不悖- OLAP 在互联网公司的实践与思考

Greenplum分布式事务和两阶段提交协议

Greenplum 排序算法

Greenplum on Kubernetes 容器化MPP数据库

Greenplum资源管理器

Greenplum备份恢复浅析