Greenplum开源MPP数据库介绍Greenplum 开源MPP数据仓库介绍 李晓亮Greenplum工程师、内核团队经理 Confidential │ ©2022 VMware, Inc. 2 Agenda Ø Greenplum简介 Ø Greenplum的MPP架构 Ø 分布式优化器: Postgres planner 和 ORCA Ø 分布式事务和执行 Ø Greenplum存储 Ø Greenplum 7 Confidential │ ©2022 VMware, Inc. 3 Greenplum简介:什么是Greenplum? 基于PostgreSQL、开源、分布式MPP、ACID完备、为OLAP优化的关系型数据仓库。 https://greenplum.org https://github.com/greenplum-db/gpdb Confidential 2003年,Luke Lonergan 和 Scott Yara 发起 Greenplum项目,从 PostgreSQL 8 分支,做成 MPP架构 Ø 2010年被EMC收购 Ø 2012年成为Pivotal的一部分 Ø 2015年开源,可能是世界上第一个成熟商用的开源 MPP数据仓库 Ø 2019年底跟随Pivotal被VMware收购 Confidential │ ©2022 VMware, Inc 0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum on Kubernetes
容器化MPP数据库Greenplum on Kubernetes 容器化MPP数据库 AGENDA 云数据库背景 云数据库实现方案 Greenplum on Kubernetes Greenplum Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式0 码力 | 33 页 | 1.93 MB | 1 年前3
Pivotal Greenplum 5.0 - 开源MPP 数据库的不二之选开源 MPP 数据库的不二之选: Pivotal Greenplum 5.0 姚延栋 yyao@pivotal.io 开放源代码 SQL 企业级数据库 生态系统 MPP 高速数据加载 多态存储 表‘SALES’ 列存储 行存储 1月 一年前 二年前 外部表 12月 11月 4月0 码力 | 18 页 | 913.39 KB | 1 年前3
Greenplum 精粹文集主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 来 了, 在 X86 集 群 上 实 现 自 动 的 并 行 计 算, 无 论 是 后 来 的 MapReduce 计算框架还是 MPP(海量并行处理)计算框架,最终还 是需要软件来实现,Greenplum 正是在这一背景下产生的,借助于分 布式计算思想,Greenplum 实现了基于数据库的分布式数据存储和并 行计算(GoogleMapReduce Dispatch 分发(QD)、协调节点上 QE 执行器的并 行工作、负责数据分布、Pipeline 计算、镜像复制、健康探测等等诸 多任务。 在 Greenplum 开源以前,据说一些厂商也有开发 MPP 数据库的打算, 其中最难的部分就是在 Interconnect 上遇到了障碍,可见这项技术的 关键性。 Greenplum 集群架构 Big Date2.indd 3 16-11-22 03 OLAP window 函数),还可以用多种语言来写存储过程,对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远,很多分 析功能都不支持,而 Greenplum 作为 MPP 数据分析平台,这些功 能都是必不可少的。 2) Mysql 查询优化器对于子查询、复制查询如多表关联、外关联的支 持等较弱,特别是在关联时对于三大 join 技术:hash join、merge0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum上云与优化简单、高效解决大数据分析需求 MPP + 列存压缩 复杂SQL + 查询优化器 本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 GP vs. RDS? Select count(*) from customer group by city Return Hash Scan 主机 Scan Hash MPP处理举例 2016Postgres中国用户大会 Scan 主机 Hash Scan MPP处理举例 2016Postgres中国用户大会 GP vs. RDS? Select count(*) from customer group by city HashAgg Hash Scan 主机 Hash Scan Hash Scan 主机 Hash Scan MPP处理举例 2016Postgres中国用户大会 应用服务器 Tableau 应用服务器 2016Postgres中国用户大会 ApsaraDB for GP的定位 ApsaraDB for GP = 简单、高效解决大数据分析需求 MPP + 列存压缩 复杂SQL + 查询优化器 本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 ApsaraDB for GP的内核优化 2016Postgres中国用户大会0 码力 | 26 页 | 1.13 MB | 1 年前3
Greenplum 5.0 and RoadmapPostgres Conference China 2016 中国用户大会 Greenplum Database Overview • Massively Parallel Processing (MPP) database system – Scales out to hundreds(*) of nodes • Shared nothing architecture • Comprehensive Greenplum Database Architecture Client Interconnect MPP Segment Host MPP Master Host ? Synch Process Standby Master MPP Segment Host MPP Segment Host Primary Segment C Mirror Segment0 码力 | 27 页 | 2.66 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密基于pgcypto的数据加密方案 3. GPDB数据透明加密方案设计 4. GPDB数据透明加解密流程 5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall again GPDB透明加密 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持0 码力 | 48 页 | 10.19 MB | 1 年前3
VMware Greenplum 6 DocumentationVMware Greenplum. Welcome to VMware Greenplum VMware Greenplum is a massively parallel processing (MPP) database server that supports next generation data warehousing and large-scale analytics processing fromwas intermittently failing with the message "FATAL: Internal error: Using fd > 65535 in MPP_FD_SET". 32089 Resolves an issue where the server was failing to acquire resources on one or more cardinality when the query specified multiple predicates that included distribution keys. 30512 - MPP: Dispatch Resolves an issue where Greenplum Database hung while continuously retrying a primary- 0 码力 | 2445 页 | 18.05 MB | 1 年前3
VMware Greenplum v6.25 DocumentationVMware Greenplum. Welcome to VMware Greenplum VMware Greenplum is a massively parallel processing (MPP) database server that supports next generation data warehousing and large-scale analytics processing fromwas intermittently failing with the message "FATAL: Internal error: Using fd > 65535 in MPP_FD_SET". VMware Greenplum 6 Documentation VMware, Inc. 183 32089 Resolves an issue where the server cardinality when the query specified multiple predicates that included distribution keys. 30512 - MPP: Dispatch Resolves an issue where Greenplum Database hung while continuously retrying a primary- 0 码力 | 2400 页 | 18.02 MB | 1 年前3
Greenplum机器学习⼯具集和案例GENERATION DATA PLATFORM Kafka ETL Spring Cloud Data Flow Massively Parallel (MPP) PostgreSQL Kernel Petabyte Scale Loading Query Optimizer (GPORCA) Workload Manager 一次打包,到处运行:裸机、私有云、公有云 • 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据 适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 ● 机器器学习 ● 图形分析 ● 统计分析 MPP系统上的可扩展应⽤用 Apache上的开源项⽬目 ● 发布了了 6 个版本 ● Apache 顶级项⽬目 Pivotal Greenplum0 码力 | 58 页 | 1.97 MB | 1 年前3
共 32 条
- 1
- 2
- 3
- 4













