Greenplum开源MPP数据库介绍Greenplum 开源MPP数据仓库介绍 李晓亮Greenplum工程师、内核团队经理 Confidential │ ©2022 VMware, Inc. 2 Agenda Ø Greenplum简介 Ø Greenplum的MPP架构 Ø 分布式优化器: Postgres planner 和 ORCA Ø 分布式事务和执行 Ø Greenplum存储 Ø Greenplum 7 Confidential │ ©2022 VMware, Inc. 3 Greenplum简介:什么是Greenplum? 基于PostgreSQL、开源、分布式MPP、ACID完备、为OLAP优化的关系型数据仓库。 https://greenplum.org https://github.com/greenplum-db/gpdb Confidential 2003年,Luke Lonergan 和 Scott Yara 发起 Greenplum项目,从 PostgreSQL 8 分支,做成 MPP架构 Ø 2010年被EMC收购 Ø 2012年成为Pivotal的一部分 Ø 2015年开源,可能是世界上第一个成熟商用的开源 MPP数据仓库 Ø 2019年底跟随Pivotal被VMware收购 Confidential │ ©2022 VMware, Inc 0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum on Kubernetes
容器化MPP数据库Greenplum on Kubernetes 容器化MPP数据库 AGENDA 云数据库背景 云数据库实现方案 Greenplum on Kubernetes Greenplum Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 StatefulSet (2) Primary Segment StatefulSet (N) Mirror Segment StatefulSet (N) Cluster PV (N) Database Service (Active Master) Greenplum on Kubernetes Master节点示例 Segment节点示例 Greenplum on Kubernetes Fluentd ● 监控及Metrics收集 ○ Prometheus ● 可视化 ○ Grafana ● …... 总结 Greenplum → Kubernetes Native Database0 码力 | 33 页 | 1.93 MB | 1 年前3
PieCloudDB Database 产品白皮书iclrudpB 罗 罗 罗_ < B Database 本EMPP 基灿异并行计算) 的云原生虚拟数仓 产品白皮书 ENRANSGenpPie.com 20230penPieAIIRight Reserved, Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 Gartner: 数据库中国市场指南 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时,所有机器同时并行计算,理论上最 把计算时间降低到单机部署的 把计算时间降低到单机部署的 1/n (n为机器数量) ,节省了海量数据的处理时间。 传统数据仓库架构 然而,随着数据量的不断尝升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 传统数据仓库的计算和存情是| 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一, 报表结! 传统数据仓库无法及时扩 导致大数据系统天 价值所带来的商业机会 用户在扩 必须同时扩0 码力 | 17 页 | 2.68 MB | 1 年前3
Service Mesh的延伸 — 论道Database MeshService Mesh的延伸 之论道Database Mesh 分享人:张亮 日期:2018年07月25日Service Mesh风头正劲Service Mesh产品多样化Service Mesh的优势 云原生 零入侵 可观察性 面向运维服务化之后,数据库怎么办? 服务 • 无状态 • 根据规则路由 • 业务方处理事务 数据库 • 有状态 • 根据SQL路由 • 数据库自动处理事务数据库的进化趋势 • SQL • ACID+BASE • 分布式 NewSQLNewSQL的分类 New Architecture Transparent Sharding Middleware Database-as-a-Service What's Really New with NewSQL?数据库中间层的优势 系统 •事务 运维 • DBA 开发 • SQL数据库中间层应具备的能力 Sidecar 数据库 任意 单一 单一 连接数 高 低 高 异构语言 仅Java 任意 任意 性能 损耗低 损耗略高 损耗低 无中心化 是 否 是 静态入口 无 有 无 Sidecar的优势Database Mesh架构图Sharding-Sphere 核心功能 数据分片 分布式事务 数据库治理 弹性伸缩 管控界面 实现方案 Sharding-JDBC Sharding-Proxy Sharding-Sidecar0 码力 | 35 页 | 4.56 MB | 6 月前3
Greenplum Database 管理员指南 6.2.1Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 1 - Greenplum Database 管理员指南 版本 V6.2.1 2020 年 09 月 27 日 欢迎关注 Greenplum 官方微信公众号和加入官方社区技术讨论群: 从闭源到开源的成长历程,一路给 Greenplum 做各种补丁 脚本,也看到了 Greenplum 的大幅进步,甚至我们以前的小技巧也不再需要,持续的 进步,带来的是生态的蓬勃发展。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 2 - 序言 术语约定 GP : Greenplum 数据库 的一台独立的机器设备 Instance : GP 的计算实例,很多时候也叫 Segment Primary : GP 的主计算实例 Mirror : GP 的镜像计算实例 MPP : 大规模并行处理 算子 : 执行计划中的运算操作 背景简介 多年前,编者翻译了 GP4.2.2 的 AdminGuide,如今,GP 已经历经了无数个版 本更新和迭代,编者也有了更多的感悟,放眼0 码力 | 416 页 | 6.08 MB | 1 年前3
PieCloudDB Database V2.8 Release Notejanm_page_size_read,用以获取 Page 大小。 n 新增 janm_block_file_size_read,用以获取 Block 文件大小。 n 新增 pdb_database_sizes,在 pdb_database_tools 扩展中用于收集所 有数据库大小。0 码力 | 4 页 | 144.49 KB | 1 年前3
PieCloudDB Database V2.1 版本说明0 码力 | 3 页 | 257.15 KB | 1 年前3
Pivotal Greenplum 5.0 - 开源MPP 数据库的不二之选开源 MPP 数据库的不二之选: Pivotal Greenplum 5.0 姚延栋 yyao@pivotal.io 开放源代码 SQL 企业级数据库 生态系统 MPP 高速数据加载 多态存储 表‘SALES’ 列存储 行存储 1月 一年前 二年前 外部表 12月 11月 4月 CLASSIFICATION GRAPH GEOSPATIAL STRUCTURED QUERY LANGUAGE Greenplum 5.0 • Open Source Based Database • PG 8.2 à PG 8.3 • Analyze Speed Enhancement • Asynchronous Dispatcher • GPORCA is Default0 码力 | 18 页 | 913.39 KB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书PieCloudDB Database 基于 eMPP (弹性大规模并行计算)的云原生虚拟数仓 产品白皮书 www.OpenPie.com ©2023 OpenPie All Right Reserved . 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 PieCloudDB,云原生虚拟数仓 然而,随着数据量的不断攀升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 4 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布 意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统数据仓库架构存储和计算的紧密耦合,往往需要企业花费巨大的运维和时间成本,且操作繁 琐。 木 桶 效 应 传统 MPP 数据仓库架构存在“木桶效应”,集群整体执行速度取决于最“短板的”节点的性能。因此,一个节点的 表现往往会 “拖垮”整个集群的性能,导致查询速度变慢。 随着时间的推移,业务的增长,企业往往需要在1-2年后0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB Database 社区版集群安装部署手册 V2.1PieCloudDB Database 社区版集群部署和使用手册 版本:V2.1 2023 年 03 月 08 日 目录 1. 集群规划 .......................................................................................................... .................................................................................. 39 5.2 创建 DATABASE ............................................................................................... ,命名为“file1”,点击选择数据库 “postgres”、集群“cluster1”,就可以在界面上书写查询语句了。 例如,如果需要新建一个名为 “公司数据库” 的数据库,可以通过以下 “CREATE DATABASE” 语句来实现。 如需执行查询,点击 即可。 4. 创建完数据库后,可以点击菜单栏的 来查看所有数据库的详细信息,包含 schema、tables、views、functions0 码力 | 42 页 | 1.58 MB | 1 年前3
共 512 条
- 1
- 2
- 3
- 4
- 5
- 6
- 52













