Greenplum数据库架构分析及5.x新功能分享Confidential–Inter nal Use Only 1 © Copyright 2013 Pivotal. All rights reserved. Greenplum 数据库架构分析及5.x 新功能分享 杨瑜 Pivotal中国研发中心 2 Pivotal Confidential–Inter nal Use Only 日程 Greenplum 数据库(GPDB)简介 Greenplum0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 精粹文集SQL 完全支持外,还支持比如分析函数(SQL2003 OLAP window 函数),还可以用多种语言来写存储过程,对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远,很多分 析功能都不支持,而 Greenplum 作为 MPP 数据分析平台,这些功 能都是必不可少的。 2) Mysql 查询优化器对于子查询、复制查询如多表关联、外关联的支 持等较弱,特别是在关联时对于三大 join join),而多个大表关联分析时 hash join 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 计算的功能也无能为力,就其因估计还是受到 mysql 在这方面限制。 3) 扩展性方面,Postgresql PLSQL 等等语言来扩展功能,在后续章节中,我将展现这种扩展 是如何的方便,另外,开发新的功能模块、新的数据类型、新的索 引类型等等非常方便,只要按照 API 接口开发,无需对 PG 重新编译。 PG 中 contrib 目录下的各个第三方模块,在 GP 中的 postgis 空间 数据库、R、Madlib、pgcrypto 各类加密算法、gptext 全文检索都 是通过这种方式实现功能扩展的。 4) 在诸如0 码力 | 64 页 | 2.73 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考赵飞祥 2 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 具备海量的数据存储和计算性能 9 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 10 greenplum体系架构 postgresql体系结构 11 greenplum体系架构 postgresql体系结构 • pg结构组成 Ø 连接关系系统 Ø 编译执行系统 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载 (gpfdist+外部表,每小时4TB+) Ø 分布分区 Ø 数据压缩 Ø 外部访问 15 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 16 Greenplum现状说明0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 Greenplum 的 成长,见证了 Greenplum 从闭源到开源的成长历程,一路给 ....................................................................................... - 268 - 机房规划................................................................................................... ................................................................................. - 337 - GP 数据库扩容规划 ..................................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台............................................................................................. 8 其他功能特性 ................................................................................................ 大幅度地提高了查询性能。 Pivotal Greenplum 5:新一代数据平台 作为重要的新版本,Pivotal Greenplum 5 带来了多项产品改进和新增功能,在管理数据和对数据库中存储的信息应用数据 科学、分析、报告和数据洞察方法方面,这些功能对大多数客户都很有帮助。Greenplum 解决方案的架构设计目的是管理 非常复杂的查询,以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分 析扩展功能支持 ANSI SQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够管理各种规模的数据卷,数 据量从数 GB 到数 PB 不等。 pivotal.io/cn 白皮书 4 © Copyright 2017 Pivotal0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案客户报表 电汇通知 分部记分卡 客户关系管理、收 购和盈利率 欺诈检测 欺诈分析 客户流失分析 响应时间 流量分析 产品关联/捆绑 零售 存储运营分析 客户忠诚度计划 协作规划和预估 预防亏损 优化供应链 当今的数据仓库方案 基于硬件 专有,昂贵 不可扩展 针对OLTP进行了优化 主流 10 数据库行业所面临的挑战 0 1 2 3 4 5 6 “黑盒子” • “大铁箱” • 大磁盘 过去Google™ 曾经用来实现信息搜索功能的技术, 现在被Greenplum用于数据仓库 现在的解决方案 12 Greenplum愿景:企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险 源文件 源数据 源数据 源文件 统一的分析处理功能 • 为数据仓库、市场、 ELT、文本挖掘、统计 运算提供统一的平台 • 可以使用SQL、 MapReduce、R等在 所有层次上对任何数 据进行并行分析 19 通过经济的方案扩展 到千万亿字节规模 • 不用担心数据增长或 者开始的规模太小 • 在商用硬件上通过线 性、经济的方式扩展 Greenplum数据引擎体系 主机 网络互连 并行查询规划和调度 区段服务器0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商概览 概览 产品架构 快速上⼿ 操作指南 访问UDW数据仓库 数据导⼊ 开发指南 udw优化指南 表膨胀 UDW中Json类型 接⼊第三⽅ BI ⼯具 UDW 使⽤案例 Pxf 扩展功能 迁移数据 使⽤ pg_dump 使⽤ pxf 外部表 FAQs 数据仓库价格 概览 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 完全托管的PB级数据仓库服务。UDW可以通过SQL让数据分析更简 单、⾼效,为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务分析能⼒。⽀持MADlib扩展,客⼾可以在udw上使⽤MADlib的扩展功能,从⽽让机器学习变得简单,⽀持PostGIS,可以⽅便 的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。 云数据仓库产品架构 云数据仓库产品架构 云数据库仓库 UDW 服务的架构图如下所⽰: 服务的架构图如下所⽰: UDW 采⽤⽆共享的 MPP 架构,适⽤于海量数据的存储和计算。UDW 的架构如上图所⽰,主要有 Client、Master Node 和 Compute Node 组成。基本组成部分的功能如下: 产品架构 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 7/206 1. Client:访问 UDW 的客⼾端 ⽀持通过 JD0 码力 | 206 页 | 5.35 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum• 新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步 时间,提升文件读写性能。 • 内存分级扩展 etMem:新增用户态 swap 功能,策略配置淘汰的冷内存交换到用户态存储,用户无感知,性能 优于内核态 swap。 2. 夯实云化基座 容器操作系统 KubeOS:云原生场景,实现 OS 容器化部署、运维,提供与业务容器一致的基于 特性,运行符合 ANSI 标准 的 SQL,可以让服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚 至数百倍。其多种分析扩展功能支持 ANSI SQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够 管理各种规模的数据容量,数据量从数 GB 到数 PB 不等。 Greenplum 环境适用性强与其开放性、真正开源、社区活跃有密不可分的关系,一方面 面 Greenplum 能够独立于专用 硬件加速提供高性能的纯软件数据平台,无需专用硬件,另外一方面包括核心代码在内的全部开源,社区人员或客户 可最大化自由利用和借鉴 Greenplum 的优秀功能的同时,又可以反哺及影响总体产品研发方向,可以加快产品创新, 基于此 Greenplum 有适用于多种环境的使用及实践,非常契合如今中国本土客户越来越多样化的应用业务基础环境。 以开源创新替代专有分析环境0 码力 | 17 页 | 2.04 MB | 1 年前3
Pivotal Greenplum 最佳实践分享s 50 NA Instance实例数的配置建议 • Instance是GPDB的最小并行单元,每个Segment 节点一般配置4~8个Instance,初始化完成后很 难修改,需要提前规划; • 每个Instance都是一套独立的进程,当客户端 发起一个请求时,每个Instance都将FORK子进 程并行工作; • 对于并发请求高、面向于复杂的灵活查询的系 统,建议每个Seg 如按照“发生日期”做分区,然后在机构字段上将bitmap索引 • 对于1亿条记录以下的表不分区(对于小系统,该阀值适当调低) 索引使用: • 以数据批处理为主要功能的系统一般不需建索引 • 以并发查询为主要功能,特别OLTP查询(根据KEY,Attribute等作为筛选条件)的系统按照常用字段建索引。 • 建索引的方法:对于区别度高的字段,如账号、手机号码等使用B-Tree索引,对于区别度低的字段(<10000) 在GPDB中,对象权限不能从Schema继承,新增的对象需要Grant授权给相应用户。 用户可以属于多个角色组role,用户可以从role继承权限 建议在系统建设时,按照功能、权限划分为较为固定的数个角色组,新增对象时只要把权限Grant到 相应角色组 即可,不需要再按照使用者单独授权,这种方式对于查询用户较多的系统能简化权限管理。 同一个对象内的数据,如0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum上云与优化ApsaraDB for Greenplum介绍 2016Postgres中国用户大会 目 录 content ApsaraDB for GP的定位 ApsaraDB for GP的内核优化 未来的规划 2016Postgres中国用户大会 ApsaraDB for GP的定位 2016Postgres中国用户大会 ApsaraDB for GP的定位 GP的优势? 与其他技术的对比? backend CGroup backend backend backend CGroup Public CGroup Kill –USR2 2016Postgres中国用户大会 未来规划 满足客户需求! 列存优化 – 某些场景下提高数倍性能 CPU优化 – 对GP执行器的静态编译优化 流式备份 – 实时的物理备份 社区参与 – 成为社区积极的贡献者 2016Postgres中国用户大会0 码力 | 26 页 | 1.13 MB | 1 年前3
共 16 条
- 1
- 2













