Greenplum 6新特性:
在线扩容工具GPexpand剖析在线扩容工具GPexpand剖析 杜佳伦 (jdu@pivotal.io) 大纲 • Greenplum 集群部署 • GPExpand简介与具体用法 • Greenplum 6中GPExpand的改进与实现 Greenplum 集群部署 Greenplum 集群部署 • gp_segment_configuration 字段名 描述 dbid 每个节点的唯一id content 每个 6中GPExpand的改进与实现 • 在线不停机 • 数据重分布优化 • 并行的优化 改进与实现 • 如何做到不停机 – 增加新节点只要在gp_segment_configuration里添加新节点信息即可 – 新节点以Master为模板生成,只包含catalog,没有数据 改进与实现 • 问题 – 生成模板的过程中,如果catalog被修改怎么保证一致性 改进与实现 • 问题 ▪ 新增catalog锁 ▪ select gp_expand_lock_catalog() ▪ expand过程中申请写锁 ▪ 其他修改catalog操作时也会申请锁来实现与expand的互斥 改进与实现 • 数据重分布的优化 – 扩容后,新节点没有数据,查询Plan如何做??? ▪ 在Greenplum 5和之前的版本里会将所有的表改成随机分布,然后再ALTER成按列 分布 ▪ Greenplum0 码力 | 37 页 | 1.12 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台.......................................................................................... 4 集成分析:改进后的全新分析接口 .......................................................................................... 作为重要的新版本,Pivotal Greenplum 5 带来了多项产品改进和新增功能,在管理数据和对数据库中存储的信息应用数据 科学、分析、报告和数据洞察方法方面,这些功能对大多数客户都很有帮助。Greenplum 解决方案的架构设计目的是管理 非常复杂的查询,以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 服务器群集能够以单一数据超级计 pivotal.io/cn 白皮书 6 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 集成分析:改进后的全新分析接口 一直以来,客户都能在 Pivotal Greenplum 中做高级分析,无论是提供将应用逻辑向下推送至数据所在位置的方法,执行 分析功能,还是以大规模并行方式构建数据模型,都可以实现。Greenplum0 码力 | 9 页 | 690.33 KB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum........................................................................................ 12 集成分析:改进后的全新分析接口 .......................................................................................... 减少独占锁的使用可以极大的提高数据库 在高并发状态下的性能,这项技术已经在 Greenplum6 实现。 在 Greenplum6 和即将发布的 Greenplum 7, 带来了多项产品改进和新增功能,这些功能提升了性能,增加了系统可 用性,提高了系统可维护性,而这些对于传统 OLTP 类型应用提供了强有力的支撑。 全局死锁检测(GDD、Global deadlockdetector) 帮助的情况自由使用数据分析,同时大大提高了安全性,Docker 容器确保用户代码无法访问源主机的文件系统。此外,容器启动时网络访问受限,无法连接回 Greenplum 数据库或 打开任何其他外部连接。 集成分析:改进后的全新分析接口 一直以来,客户都能在 Greenplum 中做高级分析,无论是提供将应用逻辑向下推送至数据所在位置的方法,执行分 析功能,还是以大规模并行方式构建数据模型,都可以实现。Greenplum0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1特性。安装包可以从 pgAdmin 网站下载。因 pgAdminIII 很久没有更新了,对于 5 版本和 6 版本中 的很多特性没有支持,编者为此做了定制开发,针对 5 版本和 6 版本的新功能和 系统表的修改进行了必要的适配,可以很好的兼容 5 版本和 6 版本。 使用标准数据库应用接口,例如 ODBC 和 JDBC,用户可以开发出自己的客户端程 序。由于 GP 基于 PostgreSQL 而来,可以直接使用 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 50 - 性限制,这个让编者有点难以接受,期待该功能的改进。 基于角色的资源组会从逻辑上根据 CONCURRENCY 属性划分等量的槽位,同时会 为这些槽位配额相同百分比的内存资源,如果 MEMORY_LIMIT 属性为 0,内存资源的 管理方 的下一代查询优化器,在某些查询和算子的场景中优势明显。 针对分区表的查询。 包含子查询的查询。 包含CTE的查询。 DML操作的增强。 在有些方面 Orca 也有改进: Join顺序的调整。 关联聚合的顺序调整。 Sort顺序的优化。 对数据倾斜的评估。 Greenplum Database0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum机器学习⼯具集和案例验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 逻辑回归 Elastic Net 特征选择 模型 1 2 3 4 5 6 改进后的 in-database 流程 2017.thegiac.com 数据编辑/整理理 之前 之后 性能提升 ● 181 ⾏行行代码 ● 75 分钟 ● 116 ⾏行行代码0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案• 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 业务问题 • 改进定位广告 • 竞争对手 • Teradata, Oracle • 数据规模 • 1万亿行事实数据表,每天增加 3TB • 硬件 • 40节点的Sun数据仓库设备 • 优势 • 可以通过控制支持快速膨胀的数据集0 码力 | 45 页 | 2.07 MB | 1 年前3
共 6 条
- 1













