Greenplum 分布式数据库内核揭秘李正龙 Confidential │ ©2021 VMware, Inc. Agenda 2 - Greenplum 分布式数据库简介 - Greenplum 集群化概述 - 分布式数据存储与多态存储 - 分布式查询优化器与执行器 - Greenplum 中文社区 3 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据库简介 Features Coordinator 提供高可用支持 l Mirror 则为 Segment 提供高可用支持 7 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据存储与多态存储 Hash/Randomly/Replicated Confidential │ ©2021 VMware, Inc. 8 数据存储分布化是分布式数据库要解决的第一个问题。 通过将海量数 个节点仅保存总数据量的 1/100,100 个节点同时并行处理,性能会是单个配置更强节点的几十倍。 Greenplum 不仅仅实现了基本的分布式数据存储,还提供了更高级更灵活的特性,譬如多种分布 策略、多级分区以及多态存储。 分布式数据存储 Confidential │ ©2021 VMware, Inc. 9 Greenplum 6 提供了以下 3 种数据分布策略: l 哈希分布 (Hash Distribution)0 码力 | 31 页 | 3.95 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享架构 6 Pivotal Confidential–Inter nal Use Only 平台概况 产品特性 客户端访问和工具 多级容错机制 无共享大规模并行处理 先进的查询优化器 多态存储系统 客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 任务管理 slice 1 QE process slice 2 gang gang gang 执行并行计划 13 Pivotal Confidential–Inter nal Use Only 多态存储 列存储更适合压缩 查询列子集时速度快 不同列可以使用不同压缩方式: gzip (1- 9), quicklz, delta, RLE 访问多列时速度快 支持高效更新和删除0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台HTAP = ? ■ 卓越的OLAP特性 ■ 出色的OLTP特性 ■ 多态存储 ■ 有效的并发和资源管理 OLTP-OLAP独立部署 OLTP数据库 OLAP数据仓库 ■ 实时性 ■ 数据同步复杂性 ■ 应用复杂性 43 Pivotal Confidential–Internal Use Only 多态存储 • 列存储更适合压缩 • 查询列子集时速度快 • 不同列可以使用不同压缩方式:0 码力 | 52 页 | 4.48 MB | 1 年前3
Pivotal Greenplum 5.0 - 开源MPP 数据库的不二之选5.0 姚延栋 yyao@pivotal.io 开放源代码 SQL 企业级数据库 生态系统 MPP 高速数据加载 多态存储 表‘SALES’ 列存储 行存储 1月 一年前 二年前 外部表 12月 11月 4月 3月 2月 5月 并行执行 企业级特性0 码力 | 18 页 | 913.39 KB | 1 年前3
Greenplum 架构概览据库实例,再按照某种规则将数据尽可能均匀地分布到各个节点上 ,这个过程通常称之为分⽚ GP 同时⽀持数据的分⽚和分区,具体的分⽚和分区规则将会 在后⾯的总结中详述 同时,GP 在存储上⽀持多态存储,也就是对于同⼀份数据,既可以选择基于⾏的存储⽅式,也可以选择基于列的存储⽅式,并且⽀持诸如 S3、HDFS 等外部存储 GP 基本查询流程 PostgreSQL 进程模型 PostgreSQL(以下简称0 码力 | 1 页 | 734.79 KB | 1 年前3
Greenplum 介绍N、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 支持扩展(Extension)、自定义类型和函数、PXF 和外部表技术。可以使用多种语言实现用户自定义函数和聚集,包括0 码力 | 3 页 | 220.42 KB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考海量并行处理+完全无共享 Ø cpu计算能力 Ø 数据从Disk上的I/O吞吐性能 Ø master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载 (gpfdist+外部表,每小时4TB+) Ø 分布分区 Ø 数据压缩 Ø 外部访问 15 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum机器学习⼯具集和案例• 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习0 码力 | 58 页 | 1.97 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台完全 托管云 本地 BI / 报告 自定义应用 机器学习 AI SQL 大规模 并行处理 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload Manager 多态存储 Command Center SQL 兼容性 (Hyper-Q) PostgreSQL 内核 JSON、Apache AVRO、Apache Parquet 和 XML 结构化数据 pivotal0 码力 | 9 页 | 690.33 KB | 1 年前3
共 9 条
- 1













