搜索

pdf文档 VMware Tanzu Greenplum v6.20 Documentation

20.25 MB 1988 页 0 下载 84 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
VMware Tanzu Greenplum 6.20 Documentation provides comprehensive information about installing, configuring, and using the Tanzu Greenplum database. It highlights the database's massively parallel processing capabilities, support for SQL and MapReduce, and large-scale analytics. The document details differences from the open-source version, including additional features like QuickLZ compression, data connectors (Greenplum-NiFi, Greenplum-Spark, etc.), and enhanced contrib modules. It also covers release notes, resolved issues, and upgrades for versions 6.20.5 and 6.20.4. The document emphasizes best practices for system configuration, schema design, resource management, system monitoring, and data loading to ensure optimal performance and scalability.
AI总结
### VMware Tanzu Greenplum v6.20 Documentation 总结 #### 1. 产品概述 VMware Tanzu Greenplum 是一个基于开源 Greenplum Database 的大规模并行处理(MPP)数据库,支持下一代数据仓库和大规模分析处理。通过自动分区数据和并行查询,集群服务器可以作为单个数据库超级计算机运行,性能比传统数据库快数十倍甚至上百倍。支持 SQL、MapReduce 平行处理,数据量可从数百 GB 到数百 TB。 #### 2. 与开源 Greenplum 的区别 - **产品包装**:提供安装脚本和产品包装。 - **压缩支持**:支持 QuickLZ 压缩(开源版本受限,未提供)。 - **数据连接器**:支持多种数据连接器,包括 Greenplum-NiFi、Greenplum-Spark、Greenplum-Informatica、Greenplum-Kafka 等。 - **增强模块**:提供额外的 contrib 模块,如 `gp_array_agg` 和 `gp_parallel_retrieve_cursor`。 #### 3. 平台要求 - **操作系统**:支持 Linux。 - **软件依赖**:Java 环境、其他必要组件。 - **硬件和网络**:推荐使用 Dell EMC VxRail 等硬件。 - **存储**:支持 vSAN,优化存储策略(如 Stripe 4)。 #### 4. 新功能与改进(6.20 版本) - **新功能**: - `gp_parallel_retrieve_cursor`:允许通过 Greenplum 分区直接访问数据。 - `greenplum_fdw`:支持外部 Greenplum 数据库集群。 - PXF(Platform Extension Framework):支持 Hadoop、对象存储和 SQL 外部数据源。 - GPSS(Greenplum Streaming Server):支持 Kafka、NiFi 等高吞吐量数据集成。 - 支持 `advanced_password_check` 模块,增强密码策略。 - **性能优化**: - 查询优化器引入 `gp_array_agg`,提升大表查询性能。 - 默认启用索引扫描(`optimizer_enable_indexonlyscan`)。 - 优化内存管理和资源分配。 #### 5. 已解决的问题 - **6.20 版本**: - 修复 `gpstop` 在备用主节点不可用时的停止问题。 - 优化查询计划器(GPORCA),提升大表查询性能。 - 修复用户定义函数对临时表的访问问题。 - **6.20.5 版本**: - 优化查询计划器性能,减少分区约束计算。 - **6.20.4 版本**: - 修复会话临时命名空间标识符分发问题。 #### 6. 数据连接器与工具 - **数据连接器**: - Greenplum-NiFi、Greenplum-Spark、Greenplum-Informatica、Greenplum-Kafka。 - **工具**: - PXF:支持 Hadoop、对象存储和 SQL 外部数据源。 - GPSS:支持高吞吐量数据集成。 - JDBC 和 ODBC 驱动:支持第三方应用连接。 #### 7. 最佳实践 - **系统配置**: - 确保硬件和网络满足性能需求。 - 使用 vSAN 和优化存储策略。 - **资源管理**: - 使用资源组和队列管理内存和 CPU。 - **维护与监控**: - 定期维护和监控,确保高可用性和性能。 - **数据加载**: - 采用最佳实践进行数据加载和查询优化。 #### 8. 版本更新与兼容性 - **版本兼容性**: - 支持与 VMware Tanzu 产品兼容,如 Greenplum Command Center。 - 提供详细的升级指南和兼容性矩阵。 #### 9. 总结 VMware Tanzu Greenplum 6.20 提供了强大的 MPP 数据库功能,支持大规模数据处理和分析。通过新增功能和性能优化,显著提升了查询速度和资源利用率。文档详细介绍了安装、配置、使用方法以及与多种工具和数据源的集成,帮助用户充分利用其功能。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 1976 页请下载阅读 -
文档评分
请文明评论,理性发言.