Greenplum数据库架构分析及5.x新功能分享Pivotal Confidential–Inter nal Use Only 1 © Copyright 2013 Pivotal. All rights reserved. Greenplum 数据库架构分析及5.x 新功能分享 杨瑜 Pivotal中国研发中心 2 Pivotal Confidential–Inter nal Use Only 日程 Greenplum 数据库(GPDB)简介 标准SQL支持,SQL 2003 OLAP扩展 支持 MapReduce 扩展编程语言 (Python,R, Java, Perl, C/C++) 第三方工具 BI 工具, ETL 工具 文本分析,数据挖掘等 管理工具 GP Command Center GP Workload Manager 7 Pivotal Confidential–Inter nal Use Only MPP(大规模并行处理)无共享体系架构 16 Pivotal Confidential–Inter nal Use Only 解析器 主节点Segment 系统表 优化器 分布式事务 调度器 执行器 解析器执行词法分 析、语法分析并生 成 解析树 客户端 主节点接受客户连接, 处理请求,执行认证 解析器 主节点 17 Pivotal Confidential–Inter nal Use Only 优化器 本地存储0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案1 新一代数据管理和数据分析 解决方案 关于Greenplum公司 • Greenplum是一家数据库软件公司,在数据处理和 BI/DW领域,提供容量 最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥,加利福尼亚州,美国,成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站: www.greenplum Credibility Aging Proprietary Legacy Scalable, Open Software-Based Commodity HW • 用户人数 • 安全度 • 查询、报告、分析的数量 • 数据的高度多样性 • 大量定制数据 • 监管要求 商务智能/数据仓库发展趋势 一切都在增长! 数据仓库工作量:数据膨胀 面临的新难题是如何处理大规模数据 过去的10年 现在 金融服务 公民服务 国家安全 电子政务 法规实施和监管 人力资本管理 信息传播 合规性报告 资产组合分析 客户报表 电汇通知 分部记分卡 客户关系管理、收 购和盈利率 欺诈检测 欺诈分析 客户流失分析 响应时间 流量分析 产品关联/捆绑 零售 存储运营分析 客户忠诚度计划 协作规划和预估 预防亏损 优化供应链 当今的数据仓库方案 基于硬件 专有,昂贵0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 精粹文集Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 且不管这是不是自我标榜, 就从 OLAP 分析型方面来考察,以下几点 Postgresql 确实胜出一筹。 Big Date2.indd 4 16-11-22 下午3:38 Greenplum 精粹文集 5 1) PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法 支持,除对 ANSI SQL 完全支持外,还支持比如分析函数(SQL2003 OLAP window Greenplum 作为 MPP 数据分析平台,这些功 能都是必不可少的。 2) Mysql 查询优化器对于子查询、复制查询如多表关联、外关联的支 持等较弱,特别是在关联时对于三大 join 技术:hash join、merge join、nestloop join 的支持方面,Mysql 只支持最后一种 nestloop join(据说未来会支持 hash join),而多个大表关联分析时 hash join0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1通过外部表(External Table)支持高速并行数据装载。外部表可以使用[单条记 录出错隔离]模式,以允许在装载数据过程中将出错的数据记录下来。可以设置错误容 忍的阈值,以实现对数据装载质量的控制。也可以对错误信息进行分析,以帮助改善数 据装载的质量。 结合使用外部表和 GP 的并行文件分发服务(gpfdist),管理员可以实现最大化 的利用网络带宽资源以实现高速并行装载。 上图展示了 GP 23 - 对于一些尺寸很小的表(叫维表或者参考表)来说,无所谓如何分布,所以,这样 的表完全可以按照 HASH 分布或者使用随机分布,甚至复制分布(只要可以接受其尺寸 放大的影响),对整体的分析查询性能不会有明显的影响。 复制(Replicated)分布 复制分布,会在每个 Instance 上都存储一份完整的数据拷贝,复制表是在 6 版 本新引入的数据分布策略,这里需要特别指出,复制表,因为需要在每个 布策略,如果这 么做,将会极大的浪费存储空间,同时,未必会带来性能的改善,对于复制表的理解, 应该仅限于:复制表的存在,等于提前把广播做好了,减少了执行计划的复杂度,对于 一些非常小的表,涉及的业务场景追求极致的性能时才考虑,对于通常的分析型场景, 无需考虑复制表。对分布策略要理解透彻,不能过度迷信某一种分布策略,时常在社区 听到有人说,复制表的性能更好,这是一种片面的理解,只能说,在某些特定的情况下,0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 6新特性:
在线扩容工具GPexpand剖析Hash ▪ 均匀性:通过概率做到均匀分布 ▪ 稳定性:在相同集群大小下,同一个Tuple每次计算结果相同 ▪ 单调性:扩容过程中,旧节点之间没有数据迁移 ▪ 高效性:对于集群大小为N的时候,时间复杂度为Log(N) – 更多算法细节请参考链接。https://arxiv.org/pdf/1406.2294.pdf – 通过GUC gp_use_legacy_hashops 可以控制,默认是Jump0 码力 | 37 页 | 1.12 MB | 1 年前3
Greenplum 排序算法26 ● 假设顺串(长度为L)分布在K个文件中,顺串合并时需要K个输入缓冲区和1个输 出缓冲区,每次选取K个缓冲区的最小值,输出到输出缓冲区。最后,输出缓冲 区输出的顺串长度为L*K ● 算法复杂度 O(K* (L*K)) 顺串合并 1 10 30 44 56 . . . 6 8 34 64 66 . . . 7 11 12 13 17 . . . 22 55 67 77 79 .0 码力 | 52 页 | 2.05 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台白皮书 Pivotal Greenplum 5: 新一代数据平台 开源、支持多种云的高级分析数据平台 作者:Keaton Adams、 Dan Baskette、 Cesar Rojas pivotal.io/cn 白皮书 2 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 目录 .......................................................................................3 以开源创新替代专有分析环境 ................................................................................................ ........................................................................................ 4 集成分析:改进后的全新分析接口 ............................................................................................0 码力 | 9 页 | 690.33 KB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 ..................................................................................... 8 以开源创新替代专有分析环境 ................................................................................................ 11 利用容器实现安全分析 ......................................................................................................................................................... 12 集成分析:改进后的全新分析接口 ..........0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商⼯具 ⼀、 UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例 使⽤案例 案例⼀ 利⽤ logstash+Kafka+UDW 对⽇志数据分析 案例⼆ 基于UDW实现⽹络流分析 PXF 扩展 扩展 配置 PXF 服务 创建 EXTENSION 读写 HDFS ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 Data Warehouse)是⼤规模并⾏处理数据仓库产品,基于开源的Greenplum开发的⼤规模并发、完全托管的PB级数据仓库服务。UDW可以通过SQL让数据分析更简 单、⾼效,为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务分析能⼒。⽀持MADlib扩展,客⼾可以在udw上使⽤MADlib的扩展功能,从⽽让机器学习变得简单,⽀持PostGIS,可以⽅便 的⽀持空间、地理位置应⽤。最新⽀持greeplum6 https://docs.ucloud.cn/unet/firewall/introduction 2.2 SQL Workbench/J SQL Workbench/J是⼀个独⽴于DBMS,跨平台的SQL查询分析⼯具。具有通⽤性好、⼩巧、免安装等优点, 并且功能强⼤,查询编辑器⽀持⾃动补全,Database Explorer可以查看和编辑各种数据库对象(表、视图、存储过程等)。 详情可⻅:SQL Workbench/J0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum机器学习⼯具集和案例2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure • 如果节点间数据通讯,使用 适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 ● 机器器学习 ● 图形分析 ● 统计分析 MPP系统上的可扩展应⽤用 Apache上的开源项⽬目 ● 发布了了 6 个版本 ● Apache Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测 模型不不够精准,需 要更更好的邮件营销 策略略 ● 现有数据分析流程 繁琐,速度慢,有 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公 司 ● 简化Data 流程 ● 在Madlib上重新建 模和预测0 码力 | 58 页 | 1.97 MB | 1 年前3
共 19 条
- 1
- 2













