并行不悖- OLAP 在互联网公司的实践与思考1 并行不悖 – OLAP 在互联网公司的实践与思考 赵飞祥 2 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 Ø事务大,频率相对小,并发低 • 未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台Node1 Segment Host Node2 Segment Host Node3 Segment Host NodeN Greenplum (MPP) Oracle (SMP) OLAP - Online Analytical Processing - 联机分析处理 Gartner 2019数据分析行业报告 Pivotal Greenplum scored highly this here as an MPP relational database are well-showcased 12 Pivotal Confidential–Internal Use Only 卓越的OLAP特性 列式存储 分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 混合事务/分析处理 Gartner技术成熟度曲线 OLTP-OLAP独立部署 OLTP数据库 OLAP数据仓库 ■ 实时性 ■ 数据同步复杂性 ■ 应用复杂性 HTAP HTAP = ? ■ 卓越的OLAP特性 ■ 出色的OLTP特性 ■ 多态存储 ■ 有效的并发和资源管理 OLTP-OLAP独立部署 OLTP数据库 OLAP数据仓库 ■ 实时性 ■ 数据同步复杂性 ■ 应用复杂性0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum开源MPP数据库介绍7 Confidential │ ©2022 VMware, Inc. 3 Greenplum简介:什么是Greenplum? 基于PostgreSQL、开源、分布式MPP、ACID完备、为OLAP优化的关系型数据仓库。 https://greenplum.org https://github.com/greenplum-db/gpdb Confidential │ ©2022 VMware (WAL replication) Ø 自动灾难恢复 (FTS,主备切换) Confidential │ ©2022 VMware, Inc. 9 分布式优化器:OLAP Ø OLTP系统的SQL语句相对简单(CURD) Ø OLAP系统的SQL语句就复杂得多(OLTP则尽量避免) q Join 很复杂(多表, outer join, lateral…) q 子查询、子链接 q 聚集 (grouping 优化器非常非常重要 Ø 基于规则优化和基于代价优化 Confidential │ ©2022 VMware, Inc. 10 ORCA Ø 历时十年,独立开发 Ø Cascades 架构 Ø OLAP性能很棒 Ø https://db.cs.cmu.edu/events/vaccination-2022-orca-a-modular-query-optimizer- architectur0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum 精粹文集且不管这是不是自我标榜, 就从 OLAP 分析型方面来考察,以下几点 Postgresql 确实胜出一筹。 Big Date2.indd 4 16-11-22 下午3:38 Greenplum 精粹文集 5 1) PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法 支持,除对 ANSI SQL 完全支持外,还支持比如分析函数(SQL2003 OLAP window 函数),还可以用多种语言来写存储过程,对于 的支持方面,Mysql 只支持最后一种 nestloop join(据说未来会支持 hash join),而多个大表关联分析时 hash join 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 全文检索都 是通过这种方式实现功能扩展的。 4) 在诸如 ACID 事物处理、数据强一致性保证、数据类型支持、独特 的 MVCC 带来高效数据更新能力等还有很多方面,Postgresql 似 乎在这些 OLAP 功能上都比 mysql 更甚一筹。 5) Postgresql 许可是仿照 BSD 许可模式的,没有被大公司控制,社区 比较纯洁,版本和路线控制非常好,基于 Postgresql 可让用户拥有0 码力 | 64 页 | 2.73 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 12 白皮书 | 12 图 4:Greenplum 管理节点 Master 自动 Failover Greenplum 在 OLAP 方面继续保持领先与创新,打造统一分析全平台,综合多种技术给用户提供了分析便利,可以 选择自己擅长的工具及利用遗留的知识和技能,特别适合拥有多种技能的团队。 利用容器实现安全分析 PL/Container TPC-DS 采用星型、雪花型等多维数据模式。包含 7 张事实表、17 张维度表,平均每张表含有 18 列,其工作负载包 含 99 个 SQL 查询,覆盖 SQL99 和 2003 的核心部分以及 OLAP。这个测试集包含对大数据集的统计、报表生成、联 机查询、数据挖掘等复杂应用,测试用的数据和取值是有倾斜的,与真实场景非常相似。 b. 测试环境简介 完全兼容欧拉开源操作系统的 HTAP 行改进带来了多项新功能,并且大大提升了事务处理性能 。正是由于社区的开放性和纯软件的中立性,与欧拉开源社区 合作让社区新版本扩充了客户的部署选项,与欧拉开源操作系统完全兼容,支持多样性计算,它提供了一个同时支持 OLAP 和 OLTP 的业务场景,同时支持传统和新型分析工作负载的环境,可帮助客户消除分析孤岛,避免数据来回移动。 此外, 它通过有助于加快创新的集成环境,为数据科学家和业务分析师提供多种分析功能。Greenplum0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享简介 4 Pivotal Confidential–Inter nal Use Only GPDB:为大数据存储、计算、挖掘而设计 标准 SQL 数据库:ANSI SQL 2008 标准,OLAP,JDBC/ODBC 支持ACID、分布式事务 分布式数据库:线性扩展,支持上百物理节点 企业级数据库:全球大客户超过 1000+ 安装集群 百万行源代码,超过10年的全球研发投入 近实时数据加载 任意系统数据访问 存储 & 数据访问 混合存储引擎(行存&列存) 多种压缩,多级分区表 索引(B树,位图,GiST) 安全性 语言支持 标准SQL支持,SQL 2003 OLAP扩展 支持 MapReduce 扩展编程语言 (Python,R, Java, Perl, C/C++) 第三方工具 BI 工具, ETL 工具 文本分析,数据挖掘等 管理工具 GP0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1 GP数据库不支持将开窗函数作为聚合函数的参数。 开窗表达式 开窗函数的支持,使得应用开发人员,可以使用标准SQL命令,方便的构造复杂的 在线分析处理(OLAP)查询。例如,可以计算移动平均值,或者不同时间段总数,根据 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 BY子句定义了在一个开窗分组如何对记录进行排序。值得注意的是,开窗 分组中的ORDER BY仅对开窗分组内的数据进行局部排序。对于计算Rank的开窗 函数来说需要有ORDER BY子句,不然Rank值就是随机排序的结果。对于OLAP聚 合来说,在使用ROWS或RANGE子句的开窗分组时,也要有ORDER BY子句,不然 开窗函数计算得到的也是随机排序的结果。 ROWS/RANGE子句用于定义开窗分组内的动态分组。PARTITION 硬件选型 GP是一个分布式数据库软件,整体数据库的性能依赖于硬件的性能和各种硬件资 源的均衡。如果过度强调某一方面硬件资源,会造成资源的不均衡,也是对资源的浪费, 同时也是投资的浪费。对于OLAP应用来说,最大的瓶颈是磁盘性能(而不是磁盘容量), 因此,所有其他资源都应该围绕磁盘性能来均衡配置。这些资源包括CPU主频与Core 数量、内存容量、网络带宽、Raid性能等,但基本宗旨是,IO资源必须绝对富余,CPU0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum资源管理器Greenplum数据库 • Resource Queue • Resource Group 2017 年象行中国(杭州 站)第一期 Greenplum数据库 • 基于PostgreSQL • 分布式 • OLAP • MPP(Massively Parallel Processing) 2017 年象行中国(杭州 站)第一期 Greenplum数据库 2017 年象行中国(杭州 站)第一期 Resource0 码力 | 21 页 | 756.29 KB | 1 年前3
Greenplum 介绍eenplum 还兼容 SQL 标准,具备强大、 高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的混合负载,从而帮助客户真正打通业务-数据-洞见-业务的闭环。 目前,Greenplum 已经为国内外各行各业客户所广泛使用0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum 5.0 and RoadmapScales out to hundreds(*) of nodes • Shared nothing architecture • Comprehensive SQL support with OLAP extensions • Full ACID support • Data distributed across nodes – Hashed distribution – Random distribution0 码力 | 27 页 | 2.66 MB | 1 年前3
共 21 条
- 1
- 2
- 3













