Greenplum 精粹文集
下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 判断的标准就是看看底下那个轮子有多少人使用,有多少人为它贡 献力量。 2) 为什么是 Postgresql 而不是其它的? 我想大家可能主要想问为什么是 Postgresql 而不是 Mysql ?(其实, 还有很多开源关系型数据库,但相比这两个主流开源库,实在不在 一个起跑线上)。我们无意去从技术点上PK这两个数据库孰优孰劣, 我相信它们的存在都有各自的特点,它们都有成熟的开源社区做支 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远,很多分 析功能都不支持,而 Greenplum 作为 MPP 数据分析平台,这些功 能都是必不可少的。 2) Mysql 查询优化器对于子查询、复制查询如多表关联、外关联的支 持等较弱,特别是在关联时对于三大 join 技术:hash join、merge join、nestloop join 的支持方面,Mysql 只支持最后一种 nestloop0 码力 | 64 页 | 2.73 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
机器学习 AI SQL 大规模 并行处理 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload Manager 多态存储 Command Center SQL 兼容性 (Hyper-Q) PostgreSQL 内核 JSON、Apache AVRO、Apache Parquet 和 XML 结构化数据 pivotal.io/cn 白皮书 5 © Copyright0 码力 | 9 页 | 690.33 KB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
Embedded,镜像大小<5M,启动时间<5S。 4. 繁荣社区生态 友好卓面环境:UKUDDEXfce 卓面环境,丰富社区卓面环境生态。 • 欧拉 DevKit:支持操作系统迁移、兼容性评估、简化安全配置 secPaver 等更多开发工具。 Greenplum:新一代 HTAP 数据平台 Greenplum 自 2006 年发布第一个版本以来,就以精巧架构、简单0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
访问UDW数据仓库 数据仓库 1 客⼾端⼯具访问UDW 2 图形界⾯的⽅式访问UDW 数据导⼊ 数据导⼊ insert加载数据 copy加载数据 外部表并⾏加载数据 从hdfs加载数据 从mysql中导⼊数据 从oracle中导⼊数据 从ufile加载数据 开发指南 开发指南 1、连接数据库 2、数据库管理 3、模式管理 4、表格设计 5、加载数据 6、分区表 7、序列 greenplum 集群中创建 hdfs pxf 可读表 4. 从 hdfs 外部表中读取数据并写⼊⽬的 greenplum 集群 FAQs 创建好数据仓库之后怎么连接到UDW? UDW⽀持从mysql导⼊数据吗? HDFS/Hive与UDW之间可以导⼊导出数据吗? UDW中怎么kill掉正在执⾏的SQL语句? 如何通过外⽹访问UDW? 节点扩容时数量有没有什么限制? 数据仓库价格 数据仓库价格 ⼊数据到udw 2. ⽤外部表的⽅式,把⽂件并⾏的导⼊到udw 3. 创建hdfs的外部表,把hdfs中的数据导⼊到udw 4. 通过sqoop把hdfs中的数据导⼊到udw 5. ⽤mysql2udw把mysql中的数据导⼊到udw 6. 创建ufile的外部表、把ufile中数据导⼊到udw 在导⼊⼤量的数据的时候我们建议不要使⽤insert⼀条条的导⼊数据、强烈建议使⽤copy、udwfile导⼊数据。0 码力 | 206 页 | 5.35 MB | 1 年前3Pivotal HVR meetup 20190816
参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 14 Compare Products 需求:利用GP自建数据仓库面临的数据集成问题 ➢ 支持MySQL的全量以及增量备份 ➢ 支持Oracle的全量以及增量备份 ➢ 支持SQL Server的全量同步 ➢ 对于增量备份可以支持准实时的同步也可以支持延时同步 ➢ 同步软件不会对源库造成负载上升的问题 版本更新不及时,对GreenPlum新版本无法持续性支持,不稳定。 ➢ 需开发人员支持,二次开发或脚本支持,开发时间成本和人力成本高。 ➢ 支持数据库版本少,无法支持跨多版本的Oracle、MySQL、PostgresSQL、SQL Server等 ➢ 断点续传不支持 ➢ 大量数据同步的情况下,同步组件效率低 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA0 码力 | 31 页 | 2.19 MB | 1 年前3Greenplum 分布式数据库内核揭秘
分布式执行器 QD/QE/火山模型/Gang Confidential │ ©2021 VMware, Inc. 25 Greenplum,或者说 PostgreSQL 是进程模型,而不是类似于 MySQL 的线程模型。 主进程 postmaster 是整个数据库实例的总控进程,负责启动和关闭数据库实例。当客户端和 Coordinator 建立连接时,postmaster 会 fork 出一个子进程来为该连接提供服务。 火山模型,或者说拉模型,是指从最顶层的输出节点开始,不断从下层节点拉取数据,一种自顶向 下的执行方式。最常见的拉模型是 Tuple-At-A-Time,即每次从下层拉取一个元组进行处理。 Greenplum、PostgreSQL、MySQL 以及 Oracle 等主流数据库均采用拉模型。 拉模型的每个算子都实现了从下层节点获取一条元组的 GetNext 函数,每次调用该函数都会从下 层节点返回一条元组或者 EOF 的 NULL 指针。上层节点不断地调用0 码力 | 31 页 | 3.95 MB | 1 年前3Greenplum分布式事务和两阶段提交协议
PostgreSQL和Greenplum采用的策略 思考: 1. MySQL同样采用MVCC,事务恢复的时候为什么需要undo log? 2. 出现新硬件(NVRAM)并不断得到广泛应用,WAL是否适合新硬件特点? (业内的探索:CMU, VLDB 2016, Write-Behind Logging) 20 Version Storage MySQL、Oracle PostgreSQL 引用来源:Yingjun0 码力 | 42 页 | 2.12 MB | 1 年前3Greenplum 架构概览
有何区别? 在 Master-Slave 模型下,Master 和 Slave 拥有相同的数据,并且 Master 是存储和处理数据的唯⼀⼊⼝,Slave 仅复制 Master 的 数据。⽐如 MySQL 的主从模型、Redis 的主从模型 在 Master-Segment 模型下,⾸先 Master 节点不存储数据,其次就是数据将会以分⽚的⽅式存储在多个 Segment 节点中。这⾥可以 类⽐0 码力 | 1 页 | 734.79 KB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
OLAP数据流转 —— dbsync平台 7 数据仓库体系架构 数据架构示意图 8 数据仓库体系架构 架构的具体技术实现 • 轻量级数据仓库 —— Inforbright – 与MySQL数据库结合,易使用,冷热分离 – 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 –0 码力 | 43 页 | 9.66 MB | 1 年前3Greenplum 新一代数据管理和数据分析解决方案
– 服务器平台:SUN X4600一台,4路dual-core CPU 共8core,32GB – 存储平台:NetApp一台 – 网络平台:千兆网络 – 软件平台:RedHat linux + mysql – 应用软件:基于Apache的PHP程序 • 现有运行现状 – 随着数据量的不断增长,应用在现有平台上的运行效率极度恶化。 – 实际运行采样,9月份月度数据处理时,该应用耗时42小时;经过两个月0 码力 | 45 页 | 2.07 MB | 1 年前3
共 22 条
- 1
- 2
- 3