Pivotal HVR meetup 20190816
0 码力 | 31 页 | 2.19 MB | 2 年前文档介绍了HVR(High Velocity Replication)技术,重点阐述了其在实时数据集成、分析和传输中的应用。HVR能够支持全量同步、增量实时同步,适用于多种数据源和目标,包括数据库、数据湖和云存储。文档还提到HVR在实时BI系统中的优势,如低网络带宽利用率和数据安全传输。同时,HVR能够解决数据质量问题,如数据乱码和DDL复制等问题。文档还提到HVR在数据集成中的应用场景,如实时分析、数据湖和数据仓库建设,并由资深技术顾问介绍了HVR的技术优势和解决方案。
并行不悖- OLAP 在互联网公司的实践与思考
0 码力 | 43 页 | 9.66 MB | 2 年前文档讨论了Greenplum在互联网公司中的应用与扩展规划。Greenplum作为一个并行数据库,支持多种扩展方式,包括直接添加服务器、建立新集群以及建议的双跑扩展方式。文档还涉及了数据仓库的体系架构,包括OLAP场景、数据集市的构建与优化,提到了OLAP与OLTP的区别,以及如何通过数据集市满足不同业务需求。
Greenplum分布式事务和两阶段提交协议
0 码力 | 42 页 | 2.12 MB | 2 年前文档详细介绍了Greenplum分布式事务和两阶段提交协议的实现原理及其优化。首先阐述了事务的ACID属性,重点讨论了原子性、一致性和隔离性在分布式环境下的实现方式。接着分析了PostgreSQL在两阶段提交中存在的问题,并介绍了Greenplum如何在分布式环境中优化两阶段提交协议。文档还详细描述了Greenplum的分布式事务管理机制,包括分布式快照、分布式日志和分布式死锁检测等关键组件。最后,讨论了Greenplum如何通过优化一阶段提交和两阶段提交流程,提升分布式事务的效率和可靠性。
深度揭秘Greenplum开源数据库透明加密
0 码力 | 48 页 | 10.19 MB | 2 年前本文深入探讨了Greenplum开源数据库的透明加密技术,详细介绍了其数据加密方案的设计目标、加密对象以及实现方式。Greenplum是一款开源的HTAP数据库,支持MPP架构、完整的事务+ACID+标准SQL支持、上千个节点的部署以及PB级文件处理。其透明加密方案旨在对用户和数据库透明,利用高性能CPU加密指令集,确保数据在表、预写日志、主从节点数据、索引及其他辅助数据、磁盘缓存文件等多方面的安全性。
Greenplum 排序算法
0 码力 | 52 页 | 2.05 MB | 2 年前文档主要介绍了Greenplum数据库中的排序算法,包括内排序和外排序的基本原理及其在Greenplum中的具体应用。内排序算法包括快速排序、堆排序、冒泡排序和插入排序等,而外排序则通过生成顺串和高效比较多个顺串的最小值来减少IO次数。此外,文档还提到了多键排序和分组聚集在Greenplum中的实现,以及如何通过源代码理解和优化排序算法。最后,文档介绍了Greenplum排序算法在实际查询中的应用,如Group Aggregation、Merge Join和Distinct Aggregation等。
Pivotal Greenplum 5: 新一代数据平台
0 码力 | 9 页 | 690.33 KB | 2 年前Pivotal Greenplum 5 是新一代开源、支持多云的高级分析数据平台,基于 GPORCA 新一代查询优化器,显著提升了复杂查询的性能。其架构化查询语言性能优化、动态分区消除、增强的资源组和Workload Manager功能,以及对多种数据类型(如JSON、HSTORE、UUID)的支持,使其能够高效处理大规模数据。平台支持 ANSI SQL 和多种分析扩展功能,集成 Python 和 R 等语言的机器学习库,适用于企业数据仓库和高级分析需求。
基于 Greenplum 打造SaaS化电商服务平台
0 码力 | 7 页 | 547.94 KB | 2 年前文档介绍了聚水潭公司基于Greenplum打造的SaaS化电商平台。聚水潭成立于2014年,专注于电商SaaS ERP领域,现已发展为集多种商家服务为一体的协同平台,服务全国近20万家电商企业。公司通过GP集群和数据仓库等技术手段,解决了复杂查询和高并发数据处理问题,确保系统在电商大促期间稳定运行。2018年双十一期间,系统处理订单总量达1.51亿单,成交额341亿。文档还提到使用Greenplum分担极端复杂查询,提升系统性能。
Greenplum 6新特性:
在线扩容工具GPexpand剖析
0 码力 | 37 页 | 1.12 MB | 2 年前文档详细介绍了Greenplum 6的新特性,特别是在线扩容工具GPexpand的实现与改进。GPexpand是一种用于扩展集群节点的工具,支持在线不停机扩容,通过优化数据重分布和并行处理提升性能。文档还讨论了扩容过程中对查询的影响,包括新节点的加入、数据分布的调整以及对表操作的优化。改进包括使用numsegments参数实现更高效的扩容,并引入了并行更新以解决Greenplum 5中的串行瓶颈问题。
Greenplum 精粹文集
0 码力 | 64 页 | 2.73 MB | 2 年前文档主要介绍了Greenplum数据库的发展历程、技术特点以及在实际应用中的实践经验。内容涵盖了Greenplum的起源、分布式架构的优势、数据模型设计的重要性、硬件选型的最佳实践以及系统表的维护技巧。文档强调了Greenplum在大数据时代中的应用价值,并提供了在实践中如何优化和维护Greenplum系统的实用建议。
Brin Index主Greenplum 7中的理论与实现
0 码力 | 32 页 | 1.04 MB | 2 年前本文档主要介绍了Brin Index在Greenplum 7中的理论与实践。Brin Index是一种用于过滤不符合条件数据块的索引,存储了数据块中元组字段的最大和最小值。文档详细讨论了Brin Index在AppendOnly Table上的实现,包括其在堆中的存储结构和使用场景。Brin Index的优势在于占用空间小且创建速度快,但其劣势在于只有在数据具有一定分布特性时才有效。文档还提到了性能测试和Brin Index的适用场景,如处理大数据表和特定数据分布特性的情况。
共 31 条
- 1
- 2
- 3
- 4













