Greenplum数据库架构分析及5.x新功能分享Pivotal Confidential–Inter nal Use Only 1 © Copyright 2013 Pivotal. All rights reserved. Greenplum 数据库架构分析及5.x 新功能分享 杨瑜 Pivotal中国研发中心 2 Pivotal Confidential–Inter nal Use Only 日程 Greenplum 数据库(GPDB)简介 标准SQL支持,SQL 2003 OLAP扩展 支持 MapReduce 扩展编程语言 (Python,R, Java, Perl, C/C++) 第三方工具 BI 工具, ETL 工具 文本分析,数据挖掘等 管理工具 GP Command Center GP Workload Manager 7 Pivotal Confidential–Inter nal Use Only MPP(大规模并行处理)无共享体系架构 nal Use Only 多态存储 列存储更适合压缩 查询列子集时速度快 不同列可以使用不同压缩方式: gzip (1- 9), quicklz, delta, RLE 访问多列时速度快 支持高效更新和删除 AO 主要为插入而优化 表‘SALES’ 11月 列存储 行存储 7月 一年前 二年前 外部表 历史数据和不常访问的数 据存储在 HDFS 或者其他0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案1 新一代数据管理和数据分析 解决方案 关于Greenplum公司 • Greenplum是一家数据库软件公司,在数据处理和 BI/DW领域,提供容量 最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥,加利福尼亚州,美国,成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站: www.greenplum Credibility Aging Proprietary Legacy Scalable, Open Software-Based Commodity HW • 用户人数 • 安全度 • 查询、报告、分析的数量 • 数据的高度多样性 • 大量定制数据 • 监管要求 商务智能/数据仓库发展趋势 一切都在增长! 数据仓库工作量:数据膨胀 面临的新难题是如何处理大规模数据 过去的10年 现在 金融服务 公民服务 国家安全 电子政务 法规实施和监管 人力资本管理 信息传播 合规性报告 资产组合分析 客户报表 电汇通知 分部记分卡 客户关系管理、收 购和盈利率 欺诈检测 欺诈分析 客户流失分析 响应时间 流量分析 产品关联/捆绑 零售 存储运营分析 客户忠诚度计划 协作规划和预估 预防亏损 优化供应链 当今的数据仓库方案 基于硬件 专有,昂贵0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商⼯具 ⼀、 UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例 使⽤案例 案例⼀ 利⽤ logstash+Kafka+UDW 对⽇志数据分析 案例⼆ 基于UDW实现⽹络流分析 PXF 扩展 扩展 配置 PXF 服务 创建 EXTENSION 读写 HDFS ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 Data Warehouse)是⼤规模并⾏处理数据仓库产品,基于开源的Greenplum开发的⼤规模并发、完全托管的PB级数据仓库服务。UDW可以通过SQL让数据分析更简 单、⾼效,为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务分析能⼒。⽀持MADlib扩展,客⼾可以在udw上使⽤MADlib的扩展功能,从⽽让机器学习变得简单,⽀持PostGIS,可以⽅便 的⽀持空间、地理位置应⽤。最新⽀持greeplum6 https://docs.ucloud.cn/unet/firewall/introduction 2.2 SQL Workbench/J SQL Workbench/J是⼀个独⽴于DBMS,跨平台的SQL查询分析⼯具。具有通⽤性好、⼩巧、免安装等优点, 并且功能强⼤,查询编辑器⽀持⾃动补全,Database Explorer可以查看和编辑各种数据库对象(表、视图、存储过程等)。 详情可⻅:SQL Workbench/J0 码力 | 206 页 | 5.35 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 ..................................................................................... 8 以开源创新替代专有分析环境 ................................................................................................ ................................................................................. 10 Greenplum 集群多站点复制 ...............................................................................................0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 精粹文集TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用P l等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多 个 Postgresql 实例的高效协同和并行计算,Interconnect 承载了并行 且不管这是不是自我标榜, 就从 OLAP 分析型方面来考察,以下几点 Postgresql 确实胜出一筹。 Big Date2.indd 4 16-11-22 下午3:38 Greenplum 精粹文集 5 1) PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法 支持,除对 ANSI SQL 完全支持外,还支持比如分析函数(SQL2003 OLAP window0 码力 | 64 页 | 2.73 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 Ø事务大,频率相对小,并发低 Ø事务大,频率相对小,并发低 • 未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 —— dbsync平台 7 数据仓库体系架构 数据架构示意图 8 数据仓库体系架构 架构的具体技术实现 • 轻量级数据仓库 —— Inforbright –0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1Master,就目前已有用户的使用情况来看,即便是编者有幸参与建设的 192 台计算节点的集群,Master 的资源依然很空闲,并不会成为性能的瓶颈,同时,因为 是单 Master,可以最大限度的规避多 Master 架构的系统表频繁不一致的缺陷。 GP 是基于 PostgreSQL 发展而来,用户端可以如同访问 PostgreSQL 那样与 GP 进行交互。可以通过 PostgreSQL 客户端程序(如 的情况下,通过不同网段间的 Primary 与 Mirror 之间的对应关系也可以达到网络保障的效果,但依然强烈建议采用网卡绑 定的方式实现网络的高可用。建议采用支持 802.3ad 协议的交换机以实现多网口的链 路聚合,这样,在操作系统层面,多个物理网口将聚合并表现为一个 IP 地址,当任何 的网络或者交换机出现故障时,在操作系统级别将不会有任何的连接性异常的感知,只 是网络带宽出现下降,整个数据库集群的 通过外部表(External Table)支持高速并行数据装载。外部表可以使用[单条记 录出错隔离]模式,以允许在装载数据过程中将出错的数据记录下来。可以设置错误容 忍的阈值,以实现对数据装载质量的控制。也可以对错误信息进行分析,以帮助改善数 据装载的质量。 结合使用外部表和 GP 的并行文件分发服务(gpfdist),管理员可以实现最大化 的利用网络带宽资源以实现高速并行装载。 上图展示了 GP0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 分布式数据库内核揭秘所实现的大规模并行处理(MPP)开源数据平台,具有良好的弹性 和线性拓展能力,内置并行存储、并行通信、并行计算和并行优化功能,兼容 SQL 标准。拥有独 特的高效的 ORCA 优化器,具有强大、高效的 PB 级数据存储、处理和实时分析能力,同时支持 OLTP 型业务的混合负载。 Greenplum 分布式数据库简介 5 Confidential │ ©2021 VMware, Inc. Greenplum 集群化概述 Coordinator/Segment Text、CSV、Avro、Parquet 等。 多态存储 Confidential │ ©2021 VMware, Inc. 14 多态存储 如上所示,可以根据数据访问频率以及数据量这两个维度来选择不同的存储方式,并且在逻辑上仍 然是同一张表。 15 Confidential │ ©2021 VMware, Inc. Greenplum 分布式查询优化器 Motion Confidential0 码力 | 31 页 | 3.95 MB | 1 年前3
Greenplum 介绍Greenplum 介绍 Greenplum 是全球领先的开源大数据平台,是能够提供包含实时处理、弹性扩容、混合负载、云 原生和集成数据分析等强大功能的大数据引擎。 著名分析机构 Gartner 2019 年报告中,在经典数据分析领域 Greenplum 全球排名第三,实时分 析领域全球排名并列第四。Greenplum 是两个领域中排名前十的产品中的唯一一款开源产品。 性和线性扩展能力,并内置 并行存储、并行通讯、并行计算和优化技术。同时,Greenplum 还兼容 SQL 标准,具备强大、 高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的混合负载,从而帮助客户真正打通业务-数据-洞见-业务的闭环。 有云均可部署。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定, 从而允许客户灵活选择最适合的方案,降低未来的迁移代价,而开发、运维人员无需要学 习新的数据库处理技术,人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台:支持各种数据源,包括 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum机器学习⼯具集和案例2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure • 如果节点间数据通讯,使用 适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 ● 机器器学习 ● 图形分析 ● 统计分析 MPP系统上的可扩展应⽤用 Apache上的开源项⽬目 ● 发布了了 6 个版本 ● Apache Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测 模型不不够精准,需 要更更好的邮件营销 策略略 ● 现有数据分析流程 繁琐,速度慢,有 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公 司 ● 简化Data 流程 ● 在Madlib上重新建 模和预测0 码力 | 58 页 | 1.97 MB | 1 年前3
共 20 条
- 1
- 2













