Greenplum介绍
655.38 KB
38 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档介绍了Greenplum数据库系统,包括其架构、功能以及与Hadoop的对比。Greenplum的架构由Master节点和多个Segment节点组成,Master负责接收用户请求、生成执行计划并分发任务,Segment负责实际的数据存储和处理。Greenplum支持PostgreSQL的大部分SQL功能,并提供资源队列来控制工作负载。文档还比较了Greenplum与Hadoop在软件性质、集群规模、性能、SQL支持和稳定性方面的差异。 | ||
AI总结 | ||
以下是对文档《Greenplum介绍》的简要总结:
---
### **1. Greenplum 与 Hadoop 对比**
- **软件性质**:Greenplum为商业软件,Hadoop为开源软件。
- **集群规模**:Greenplum通常部署在100台以下的集群中,而Hadoop可扩展到上万台。
- **性能**:在100台以下的集群中,Greenplum性能优于Hadoop,单个SQL可达秒级响应;Hadoop性能随集群规模增大而提升,但单个SQL至少需数十秒。
- **SQL支持**:Greenplum支持几乎所有PostgreSQL的SQL功能,而Hadoop的SQL支持有限,不支持窗口函数和大部分DML操作。
- **稳定性**:Greenplum存在较多bug,而Hadoop较为稳定。
---
### **2. Greenplum架构**
- **Segment**:Segment是数据的实际存储位置,也是PostgreSQL的改造版本,负责数据处理工作。建议每个Segment Host上创建与CPU核心数相等的Segment数据库。
- **Master**:Master是用户访问Greenplum的入口,负责接收用户连接、解析SQL、生成并分发分布式执行计划。Master不存储实际数据,而是管理元数据(如表结构、索引等)。
- **内部网络**:Segment Host通过Greenplum的内部网络互联,外部用户无需访问该网络。Segment之间可直接交互数据,默认使用UDP协议,但建议使用TCP协议以确保稳定性,TCP下最多支持1000个Segment。
- **工具支持**:Greenplum基于PostgreSQL,可使用PostgreSQL的工具(如jdbc驱动、psql、pgadminII)进行连接和管理。
---
### **3. Greenplum功能与查询处理**
- **分布式数据库功能**:
- **并行数据装载**:支持通过gpfdist工具并行装载数据,效率高(如1小时装载2T数据)。
- **资源控制**:通过资源队列控制工作负载,包括:
- SQL的最大cost值。
- 同时运行的SQL数量上限。
- SQL优先级(4.0新功能)。
- **查询处理**:
- 用户提交SQL到Master,Master生成分布式执行计划并分发到各Segment。
- Segment并行执行数据操作(如表扫描、连接、聚集、排序),每个Segment独立执行,不依赖其他Segment。
- 支持“motion”操作,用于在查询过程中移动数据以优化处理效率。
---
### **4. 总结**
Greenplum是一种基于PostgreSQL的分布式数据库,擅长并行处理和高效查询,适合中小规模集群部署。其架构由Master和Segment组成,支持丰富的SQL功能和资源控制,但在大规模集群场景下性能稍逊于Hadoop。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
31 页请下载阅读 -
文档评分