Greenplum Database 管理员指南 6.2.1©2020 Esena Chen(陈淼 miaochen@mail.ustc.edu.cn) 编者工作十几年,先后供职于民企,国企,外企,截止目前,已从事 Greenplum 技术工作 10 余年,10 余年来,专注在 Greenplum 和相关技术领域,主要工作职责是 售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 ............... - 378 - Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 10 - 资源队列 ........................................................................................  某天或者某个时间的访问限制(不需要 BETWEEN 关键字),例如:周二不允许登录。  一个有开始时间和结束时间的访问限制(需要 BETWEEN AND),例如:周二下午 10 点到周三上午 8 点不允许登录。 还可以指定多个限制,例如:周二的任何时间不允许登录并且周五的下午 3 点到 5 点不允许登录。 指明日期和时间 有两种方法指明哪一天。使用0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum 6: 混合负载的理想数据平台2019数据分析行业报告 Pivotal Greenplum scored highly this year in all four use cases, positioning among the top vendors in all bar the context-independent data warehouse use cases. This reflects one of the major included_parts GROUP BY sub_part 16 Pivotal Confidential–Internal Use Only 窗口函数 表‘SALES’ 表‘SALES’ ■ 计算移动平均值或各种时间 间隔的总和 ■ 分组内重置聚合和排序 SELECT last_name, salary, department, rank() OVER PageRank性能 Greenplum集群: ● 1 master ● 4*6 segment 50亿条链接 (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log scale (100s) (1s) (10K s) (1M s) 数据库内集成分析 GRAPHS Confidential & Proprietary “请找出0 码力 | 52 页 | 4.48 MB | 1 年前3
 Greenplum机器学习⼯具集和案例2017.thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com std_dev) return(x) $$ LANGUAGE 'plr'; ● CREATE TABLE test_norm_var AS SELECT id, r_norm(10,0,1) as x FROM (SELECT generate_series(1,30:: bigint) AS ID) foo DISTRIBUTED BY (id); 2017 4 数据节点 ● 每个节点6个segment 每个定点有50个边的图 5B edges (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log scale (100s) (1s) (10K s) (1M s) 可扩展性 – PageRank 性能 2017.thegiac.com MADlib0 码力 | 58 页 | 1.97 MB | 1 年前3
 Greenplum 6新特性:
在线扩容工具GPexpand剖析配置文件(gpexpand生成或手动编辑) sdw:sdw:25438:/data/expand1/primary:9:3:p sdw:sdw:25439:/data/expand1/mirror:10:3:m GPExpand简介与具体用法 • 新增新节点 – postgres下创建gpexpand schema(-D参数已经取消) – gpexpand schema下面会创建几张表 ▪ 对表加最高级别锁(其他读写均被阻塞) – 移动数据到新节点 – 修改numsegments – 释放锁 改进与实现 • numsegments的收益 – 不需要将表改成随机分布,单表查询可以做优化 – 对于Join查询,如果分布状态相同的情况下,可以被优化 改进与实现 • 减少重分布数据移动量 – Greenplum 5及之前版本采用取模分布 – 节点数量发生变化后重新计算取模,移动数据量大 – 不仅存在新旧节点间的移动,旧节点之间也要移动 不仅存在新旧节点间的移动,旧节点之间也要移动 改进与实现 • 减少重分布数据移动量 – Jump Consistent Hash ▪ 均匀性:通过概率做到均匀分布 ▪ 稳定性:在相同集群大小下,同一个Tuple每次计算结果相同 ▪ 单调性:扩容过程中,旧节点之间没有数据迁移 ▪ 高效性:对于集群大小为N的时候,时间复杂度为Log(N) – 更多算法细节请参考链接。https://arxiv.org/pdf/14060 码力 | 37 页 | 1.12 MB | 1 年前3
 Greenplum 介绍等。其中,国际客户包括摩根斯坦利、摩根大通、美国国家税务局、美联储、三星、戴尔、福特、 爱立信等,国内客户包括深交所、建设银行、民生银行、广大银行、浦发银行、航旅纵横、中国 移动、华为等。自 2015 年开源以来,更是吸引了包括阿里云、百度云、中移动、旷世、去哪儿 网、易观、腾云科技、饿了么、金风科技在内大量开源用户。 Greenplum 大数据平台的优势 ● 一次打包到处运行的平台:部署灵活 习新的数据库处理技术,人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台:支持各种数据源,包括 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 采用开源方案,不担心后门问题,不担心被锁定。开源还可以构建更好的 生态。 ● 采用敏捷软件开发方法开发的平台:Greenplum 采用敏捷方法开发,实现了快速迭代、持 续发布和质量内建。2017 年 Greenplum 发布了 10 个版本,以前发布一个版本需要 1 个 月左右,现在只需要十几个小时。 ● 具备企业级稳定性的平台:Greenplum 经过十多年发展,有大量活跃客户,大量数百节点 集群为全球 2000 强企业生产系统提供服务,稳定性非常高。0 码力 | 3 页 | 220.42 KB | 1 年前3
 Greenplum 精粹文集一、Greenplum 的前生今世 1. Greenplum 的起源 Greenplum 最早是在 10 多年前(大约在 2002 年)出现,基本上 和 Hadoop 是同一时期(Hadoop 约是 2004 年前后出现的,早期的 Nutch 可追溯到 2002 年)。 互联网行业经过之前近 10 年的由慢到快的发展,累积了大量信息和数 据,数据在爆发式增长,这些海量数据急需新的计算方式,需要一场 右的数据,在 Greenplum 中不到一个小时就加载完成了,而在用户传 统数据仓库平台上耗时半天以上。 在该用户的生产环境中,1 个数百亿表和 2 个 10 多亿条记录表的全表 关联中(只有 on 关联条件,不带 where 过滤条件,其中一个 10 亿 条的表计算中需要重分布),Greenplum 仅耗时数分钟就完成了, 当其它传统数据平台还在为千万级或亿级规模的表关联性能发愁时, Greenplum m 的 80 并发耗时 3 个多小时就成功完成了,其它厂商大都没有完成此项测试,唯一完成 的一家耗时 40 多小时)。 Big Date2.indd 9 16-11-22 下午3:38 10 前文提到,得益于 Postgresql 的良好扩展性(这里是 extension,不 是 scalability),Greenplum 可以采用各种开发语言来扩展用户自定 义函数(UDF)(我个人是0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum 编译安装和调试segments: 2) (cost=0.00..2.09 rows=2 width=10) Hash Key: c.student_id -> Seq Scan on classes c (cost=0.00..2.03 rows=2 width=10) -> Hash (cost=2.03..2.03 rows=2 id,而 join 的键值是 student.id=classes.student_id 其中 student 的join键是其主键,因而不需要数据移动(motion) ;而classes 的关联键是 student_id,和其分布键不同,因而需要数据移动(motion),以保证相 同关联键的数据都在同一个 segment 上。 感兴趣的读者可以尝试把 stendent 的分布键改成其他字段,看看计划有什么变化。 segment 的 QE形成一个 Gang,它们在不同的segment上执行相同的任务。 HashJoin 需要相同关联键的所有数据都在一个 segment 上,因而如果关联键不是分布键,则需 要数据移动。在这个例子中classes 的分布键(id)和关联键(student_id) 不同,所以需要数据 重分布。 数据重分布由 Motion 操作符节点处理,它分成2个部分,一部分负责发送数据,一部分负责接收0 码力 | 15 页 | 2.07 MB | 1 年前3
 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum....... 10 并发控制优化 ......................................................................................................................................................................... 10 集群在线扩容 ............. 10 Greenplum VACUUM 提升 ............................................................................................................................................... 10 Greenplum 集群多站点复制 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 10 白皮书 | 10 在 2021 年 4 月传来喜报,Greenplum 数据库团队的论文《Greenplum: A Hybrid Database for Transactional and Analytical0 码力 | 17 页 | 2.04 MB | 1 年前3
 Greenplum 分布式数据库内核揭秘(Randomly Distribution) l 复制分布 (Replicated Distribution) 数据分布策略 Confidential │ ©2021 VMware, Inc. 10 哈希分布是分布式数据库最为常用的数据分布方式。根据用户自定义的分布键计算哈希值,然后将 哈希结果映射到某个 Segment 上。在 Greenplum 6 中,默认采用一致性哈希(Jump Consistent 复制分布则表示整张表在每个节点上都有一份完整的拷贝,假设我们有 100 个节点,复制表则会将 数据保存 100 份。复制表可避免生成分布式查询计划,而是生成本地计划,从而避免数据在集群的 不同节点间移动。 Confidential │ ©2021 VMware, Inc. 12 除了支持数据在不同的 segment 节点上水平分布以外,还支持在单个节点按照不同的标准进行分 区,将单个节点上一个 对于 JOIN,我们需要考虑两张表的分布键以及分 布策略。若分布键和分布策略不同,就需要对数据 进行节点间移动 Confidential │ ©2021 VMware, Inc. 17 由于数据是根据某种分布策略分散的存储在集群中的各个节点,那么进行查询时,就必然存在数据 在各个节点间的移动,这既可能发生在 Coordinator 和 Segment 之间,也可能发生在 Segment 和 Segment0 码力 | 31 页 | 3.95 MB | 1 年前3
 Greenplum 排序算法比基准元素大的排到基准元素的右边,从而将待排序数组分成两个子集。 快速排序 6 8 3 2 7 1 7 9 8 7 7 9 6 3 2 1 分治法 9 快速排序 ● 快速排序算法: 10 堆排序是最常用的排序算法,由J.Williams在1964年发明。 ● 堆是一种近似完全二叉树的结构,最大值堆要求每个子节点的键值总是小于父 节点。最小值堆要求每个子节点的键值总是大于父节点。 冲区。最后,输出缓冲 区输出的顺串长度为L*K ● 算法复杂度 O(K* (L*K)) 顺串合并 1 10 30 44 56 . . . 6 8 34 64 66 . . . 7 11 12 13 17 . . . 22 55 67 77 79 . . . 1 6 7 8 10 . . . 输 出 缓 冲 区 输 入 缓 冲 区 27 败者树算法(GP目前使用堆): ● 1 与更高层的比较,一直向上,直到根节点。失败者留在当前节点。 败者树 28 败者树 1 10 30 44 56 . . . 6 8 34 64 66 . . . 7 11 12 13 17 . . . 22 55 67 77 79 . . . 1 输 出 缓 冲 区 输 入 缓 冲 区 1 6 7 22 6 22 7 1 29 败者树 10 40 44 56 76 . . . 6 8 34 64 660 码力 | 52 页 | 2.05 MB | 1 年前3
共 35 条
- 1
 - 2
 - 3
 - 4
 













