Greenplum数据库架构分析及5.x新功能分享Confidential–Inter nal Use Only 1 © Copyright 2013 Pivotal. All rights reserved. Greenplum 数据库架构分析及5.x 新功能分享 杨瑜 Pivotal中国研发中心 2 Pivotal Confidential–Inter nal Use Only 日程 Greenplum 数据库(GPDB)简介 Greenplum0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 精粹文集性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个 SQL 完全支持外,还支持比如分析函数(SQL2003 OLAP window 函数),还可以用多种语言来写存储过程,对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远,很多分 析功能都不支持,而 Greenplum 作为 MPP 数据分析平台,这些功 能都是必不可少的。 2) Mysql 查询优化器对于子查询、复制查询如多表关联、外关联的支 持等较弱,特别是在关联时对于三大 join join),而多个大表关联分析时 hash join 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 计算的功能也无能为力,就其因估计还是受到 mysql 在这方面限制。 3) 扩展性方面,Postgresql0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 Greenplum 的 成长,见证了 Greenplum 从闭源到开源的成长历程,一路给 ........................................................................................ - 17 - 网络层冗余 ................................................................................................. 编写:陈淼 - 15 - 网络层是 GP 系统的重要组件,在用户执行查询时,每个 Instance 都需要执行相 应的处理,网络层涉及到 Instance 之间的通信和数据传输,网络层可以使用标准的 以太网协议。不要认为网络只是连通作用,请按照 GP 的安装部署要求,必须使用万兆 网络作为内部互联网络,否则,一定会遭受很多网络方面的困扰。 在缺省情况下,网络层使用 UDPIFC 协议。这是经过改善的0 码力 | 416 页 | 6.08 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考ShareNothing 海量并行处理+完全无共享 Ø cpu计算能力 Ø 数据从Disk上的I/O吞吐性能 Ø master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载 (gpfdist+外部表,每小时4TB+) Ø 分布分区 Ø 数据压缩 Ø 外部访问 15 Greenplum现状说明 三 Greenplum体系架构 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系 环境创建与部署 • 部署注意点 Ø 资源要充足(ETL,管理节点,数据节点,数据集市) Ø 万兆网络 (网络环境对功能和性能的影响) Ø 节点规划 (数据节点6-10个segment节点) Ø 参数调整 (操作系统参数,greenplum集群参数) 24 Greenplum运维体系 系统状态监控 - gpcc Ø 列存储表 Ø 多种表类型结合 • 表的命名 Ø GP内所有名称都小写 Ø table_name命名要符合命名规则,做到见名知义 36 Greenplum开发规范 用户与权限规范 • 四层授权保保障 Ø 角色 role : 管理数据库内对象权限 Ø 用户 user : 用户认证权限 Ø pg_hba.conf : 实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 •0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum机器学习⼯具集和案例thegiac.com 金融 保险 医疗 汽车 制造 科研 政府机构 互联网 娱乐和媒体 零售 MADlib ⽤用户和场景 2017.thegiac.com 功能 Data Types and TransformaJons Array and Matrix Operations Matrix FactorizaDon • Low Rank • ⼯工作原理理 2017.thegiac.com C API (Greenplum, PostgreSQL, HAWQ) 底层抽象层 (数组操作、类型转换、数值计算库等) 数据库内建函 数 ⽤用户接⼝口 ⾼高层抽象层 (迭代控制器器) 内循环函数 (实现机器器学习逻辑) Python SQL C++ MADlib 架构 2017.thegiac0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 分布式数据库内核揭秘VMware, Inc. 4 Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台,具有良好的弹性 和线性拓展能力,内置并行存储、并行通信、并行计算和并行优化功能,兼容 SQL 标准。拥有独 特的高效的 ORCA 优化器,具有强大、高效的 PB 级数据存储、处理和实时分析能力,同时支持 OLTP 型业务的混合负载。 Greenplum 分布式数据库简介 5 Greenplum、PostgreSQL、MySQL 以及 Oracle 等主流数据库均采用拉模型。 拉模型的每个算子都实现了从下层节点获取一条元组的 GetNext 函数,每次调用该函数都会从下 层节点返回一条元组或者 EOF 的 NULL 指针。上层节点不断地调用 GetNext 函数从下层节点获 取数据,直至数据全部获取完毕。 火山模型 postgres=# explain select0 码力 | 31 页 | 3.95 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密pruning calculating optimizing Data (Encrypted) TDE key GPDB数据透明加解密流程 秘钥管理 GPDB透明加密解析 GPDB TDE 使用三层key结构 • Master key: 加解密 major keys • Major keys: 加解密对应的 object keys • Object keys: 加解密对应的数据文件 秘钥管理 • 加密的major key会被送进KMS中,由master key来解密,KMS只返回解密后的Major key. • 所有的object keys和major keys 存储于数据库本地. 三层key结构 GPDB透明加密解析 Master Key Major Keys Object Keys Encrypted table files Encrypted log files Encrypted0 码力 | 48 页 | 10.19 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台............................................................................................. 8 其他功能特性 ................................................................................................ 大幅度地提高了查询性能。 Pivotal Greenplum 5:新一代数据平台 作为重要的新版本,Pivotal Greenplum 5 带来了多项产品改进和新增功能,在管理数据和对数据库中存储的信息应用数据 科学、分析、报告和数据洞察方法方面,这些功能对大多数客户都很有帮助。Greenplum 解决方案的架构设计目的是管理 非常复杂的查询,以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分 析扩展功能支持 ANSI SQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够管理各种规模的数据卷,数 据量从数 GB 到数 PB 不等。 pivotal.io/cn 白皮书 4 © Copyright 2017 Pivotal0 码力 | 9 页 | 690.33 KB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum• 新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步 时间,提升文件读写性能。 • 内存分级扩展 etMem:新增用户态 swap 功能,策略配置淘汰的冷内存交换到用户态存储,用户无感知,性能 优于内核态 swap。 2. 夯实云化基座 容器操作系统 KubeOS:云原生场景,实现 OS 容器化部署、运维,提供与业务容器一致的基于 特性,运行符合 ANSI 标准 的 SQL,可以让服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚 至数百倍。其多种分析扩展功能支持 ANSI SQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够 管理各种规模的数据容量,数据量从数 GB 到数 PB 不等。 Greenplum 环境适用性强与其开放性、真正开源、社区活跃有密不可分的关系,一方面 面 Greenplum 能够独立于专用 硬件加速提供高性能的纯软件数据平台,无需专用硬件,另外一方面包括核心代码在内的全部开源,社区人员或客户 可最大化自由利用和借鉴 Greenplum 的优秀功能的同时,又可以反哺及影响总体产品研发方向,可以加快产品创新, 基于此 Greenplum 有适用于多种环境的使用及实践,非常契合如今中国本土客户越来越多样化的应用业务基础环境。 以开源创新替代专有分析环境0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum on Kubernetes
容器化MPP数据库Greenplum on Kubernetes Greenplum on Kubernetes ● 存储计算分离 ○ PV持久化存储资源 ○ StatefulSet/Pod弹性扩展计算资源 ● 数据库服务层 ○ Service统一Master & Standby Master地址 ● 服务发现机制 ○ 所有节点地址名不变 ● 跨云能力 ○ 容器应用对基础设施透明 Greenplum Operator0 码力 | 33 页 | 1.93 MB | 1 年前3
共 17 条
- 1
- 2













