搜索

pdf文档 Greenplum介绍

655.38 KB 38 页 0 下载 143 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档介绍了Greenplum分布式数据库,包括其架构、数据分布策略、SQL支持、与Hadoop的比较以及高可用方案。Greenplum由Master和Segment组成,Master负责元数据管理和查询计划生成,Segment负责数据存储和处理。数据分布策略包括哈希分布和随机分布。Greenplum支持大多数PostgreSQL的SQL语法,但在某些方面存在限制。与Hadoop相比,Greenplum在小规模集群上性能更优,但扩展性有限。文档还提到了资源队列的控制功能,用于管理工作负载和资源使用。
AI总结
Greenplum 是由 EMC 的数据计算部门开发的分布式数据库系统,主要面向高性能数据处理和复杂查询需求。以下是其关键特点和架构概述: 1. **与 Hadoop 的对比**: - **软件性质**:Greenplum 是商业软件,Hadoop 是开源软件。 - **集群规模**:Greenplum 适合中小规模集群(一般在 100 台以下),而 Hadoop 可扩展到上万台。 - **性能**:在中小规模下,Greenplum 的查询性能优于 Hadoop,尤其在单个 SQL 查询上能达到秒级别。 - **SQL 支持**:Greenplum 支持几乎所有的 PostgreSQL SQL 功能,而 Hadoop 的 Hive 支持有限,不支持窗口函数和大部分 DML 操作。 - **稳定性**:Greenplum 存在较多的 bug,而 Hadoop 较为稳定。 2. **架构**: - **Master**:负责管理元数据、用户认证和查询计划的生成与分发。用户通过 Master 进行连接,不直接与 Segment 交互。 - **Segment**:实际存储数据并执行数据处理任务。每个 Segment 主机上建议部署多个 Segment 实例,数量基于 CPU 核心数。 - **内部网络**:Segment 通过内部网络互联,使用 TCP 协议以提高稳定性,最多支持 1000 个 Segment。 3. **数据分布与 SQL 支持**: - **数据分布**:采用哈希分布策略,数据随机分布在 Segment 上,查询时可能需要访问所有 Segment。 - **SQL 功能**:兼容 PostgreSQL 的大部分 SQL 功能,但在某些高级特性如表空间和触发器上存在限制。 4. **高可用性与资源管理**: - **高可用方案**:通过主从复制和多 Master 架构实现,确保系统稳定性和数据可靠性。 - **资源控制**:提供资源队列功能,用于控制工作负载,包括 SQL 的最大执行成本、活动数和优先级。 总结而言,Greenplum 在中小规模数据处理和复杂查询方面表现优异,适合需要高性能和稳定 SQL 支持的场景,但需注意其稳定性和扩展性限制。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 31 页请下载阅读 -
文档评分
请文明评论,理性发言.