完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum................................................................................. 10 Greenplum 集群多站点复制 ............................................................................................... 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点, 同时介绍了 Greenplum 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原则 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源社区0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 精粹文集Greenplum(当时还是一个 Startup 公司,创始人家门口有 一棵青梅 ——greenplum,因此而得名)召集了十几位业界大咖(据 说来自 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 l等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多 个 Postgresql 实例的高效协同和并行计算,Interconnect 承载了并行 的 是:Greenplum 绝 不 仅 仅 只 是 简 单 的 等 同 于 “Postgresql+interconnect 并行调度 + 分布式事务两阶段提交”, Greenplum 还研发了非常多的高级数据分析管理功能和企业级管理模 块,如下这些功能都是 Postgresql 没有提供的: ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1.................... - 39 - 支持的客户端应用 ............................................................................................................ - 39 - GP 的客户端应用程序 ................................. ....................................................................................... - 41 - DB 应用程序接口 .............................................................................................. 的资源依然很空闲,并不会成为性能的瓶颈,同时,因为 是单 Master,可以最大限度的规避多 Master 架构的系统表频繁不一致的缺陷。 GP 是基于 PostgreSQL 发展而来,用户端可以如同访问 PostgreSQL 那样与 GP 进行交互。可以通过 PostgreSQL 客户端程序(如 psql、pgAdminIII)和应用程序 接口(APIs(如 JDBC、ODBC))连接 GP。不过,GP 在0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 最佳实践分享步,全量同步是在两个节点之间全量拷贝文件,超过10 0000个对象,在数据目录下地文件数会可能达到上百万 个档,这些文件的拷贝需要花费很长时间 – 使用gpexpand扩容节点时,对象数多,对应到每个实例下的文件数非常多,将这些目的档重分布到新扩展的节 点时间会很长 – 系统表(pg_class,pg_attribute)太大,影响系统工作效率 – 系统元数据检查pg_checkcat等工具运行时间比较长 gp_resqueue_status 观察到队列的使用情况,逐步调整参数到最优状态。 角色组和权限管理 在GPDB中,对象权限不能从Schema继承,新增的对象需要Grant授权给相应用户。 用户可以属于多个角色组role,用户可以从role继承权限 建议在系统建设时,按照功能、权限划分为较为固定的数个角色组,新增对象时只要把权限Grant到 相应角色组 Admin常用命令 查看数据库、表占用空间 – select pg_size_pretty(pg_relation_size(‗schema.tablename‘));(注:对于分区表的,不能直接应用于父表) – select pg_size_pretty(pg_database_size('databasename)); 注:必须在数据库所对应的存储系统里,保留30%作为临时空间0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum机器学习⼯具集和案例ID) foo DISTRIBUTED BY (id); 2017.thegiac.com 2017.thegiac.com • 适合模型应用于数据子集的场景,并行执行效率非常高 • 如果节点间数据通讯,使用 适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 ● 机器器学习 ● 历史回顾 2017.thegiac.com 金融 保险 医疗 汽车 制造 科研 政府机构 互联网 娱乐和媒体 零售 MADlib ⽤用户和场景 2017.thegiac.com 功能 Data Types and TransformaJons Array and Matrix Operations Matrix FactorizaDon 分钟 9.35x 特征编辑 ● 439 特征 ● 4,517 ⾏行行代码 ● 100 分钟 ● 934 特征 ● 1,438 ⾏行行代码 ● 30 分钟 多 495 个特征,快 3.33x 信息价值 ● ~450 个变量量,~30分 钟计算结果并写⼊入 excel ● 在 GPDB 中花 58 秒计 算 ~200 个变量量的IV 130 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商numeric 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 83/206 ); 唯⼀约束:唯⼀约束确保存储在⼀张表中的⼀列或多列数据数据⼀定唯⼀。要使⽤唯⼀约束,表必须使⽤ Hash 分布策略,并且约束列必须和表的分布键对应的列⼀致(或者是超集) CREATE TABLE products( product_no integer Copyright © 2012-2021 UCloud 优刻得 86/206 UDW⽀持⾏式存储、列式存储。 ⾏存储的应⽤场景: 表数据在载⼊后经常 update; 表数据经常 insert; 查询中选择⼤部分的列; 列存储的应⽤场景: 列存储⼀般适⽤于宽表(即字段⾮常多的表)。在使⽤列存储时,同⼀个字段的数据连续保存在⼀个物理⽂件中,所以列存储的压缩率⽐普通压缩表的压缩率要⾼很多,另外在多数字段中筛 数字段中筛 选其中⼏个字段中,需要扫描的数据量很⼩,扫描速度⽐较快。因此,列存储尤其适合在宽表中对部分字段进⾏筛选的场景。注意:列存储的表必须是追加表(Appendonly table)。 创建⼀个⾏式存储的表 CREATE TABLE rowTable( a int, b text ) WITH(appendonly=true, orientation=row) DISTRIBUTED0 码力 | 206 页 | 5.35 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 19 Greenplum现状说明 三大Greenplum集群关系 • 数据来源不同 • 数据处理不同 • 时效速度不同 • 体系架构相同 • 年表划分相同 • 平台整体定位 • 定位不同,多集群配合形成逻辑大集群 20 Greenplum现状说明 Greenplum多层业务规划图 21 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 -公司IDC_02 机房 26 Greenplum运维体系 系统状态监控 - gpcc -公司IDC_03机房 27 Greenplum运维体系 数据库备份 • 配置与结构备份 Ø 多机房级联备份 Ø Greenplum在本机进行第一次备份 Ø 备份通过rsync传输到同机房ETL服务器 Ø 各机房ETL服务器在备份到备份服务器 • 结果数据备份 Ø Greenplum集群与postgresql集市备份0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 排序算法博文 · 资料 · 文档 · 项目 Greenplum内核揭秘之排序算法 5 ● 内排序算法 ● 外排序算法 ● Greenplum TupleSort ● 排序在Greenplum中的应用 Outline 6 ● 冒泡排序 ● 插入排序 ● 快速排序 ● 堆排序 ● 基数排序 内排序算法 7 快速排序是最常用的排序算法,由Tony Hoare在1959年发明。 快速排序算法的三个步骤: 39 ● 多键排序是Greenplum特有的一种排序方式,它的优势主要是对具有相同前缀 的字符串进行高效排序。 ● 在现实世界里,拥有相同前缀的字符串是非常常见的,比如URL都以https://为 前缀,每个具体站点也拥有自己的前缀,比如Greenplum站点的每篇文章都以 https://cn.greenplum.org/为前缀。对这些字符串进行排序的时候,多键排序优 势明显。 多键排序 40 40 ● 多键排序算法:快速排序的扩展 ● 假设待排序数组为a,数组元素是长度为K的字符串, 多键排序 41 多键排序 42 ● Group Aggregation ● Merge Join ● Distinct Aggregation ● Sorted Motion 排序在Greenplum中的应用 43 ● Greenplum的聚集节点使用两种聚集方式:哈希聚集和分组聚集。0 码力 | 52 页 | 2.05 MB | 1 年前3
Greenplum上云与优化支持(B-tree、Bitmap) 不支持 2016Postgres中国用户大会 推荐应用架构 应用服务器 ECS VPC ApsaraDB for GP 主节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 应用服务器 应用服务器 阿里云服务 阿里云CDP服务 应用服务器 Tableau 应用服务器 2016Postgres中国用户大会 ApsaraDB for backend backend CGroup Public CGroup Kill –USR2 2016Postgres中国用户大会 未来规划 满足客户需求! 列存优化 – 某些场景下提高数倍性能 CPU优化 – 对GP执行器的静态编译优化 流式备份 – 实时的物理备份 社区参与 – 成为社区积极的贡献者 2016Postgres中国用户大会 2016Postgres中国用户大会0 码力 | 26 页 | 1.13 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议从一个一致性状态转移到另一个一致性状态。 (满足完整性约束) 实现对A、I、D三个属性的支持 Isolation 隔离性 多个事务并发地执行,对每个事务来说,它并 不会感知系统中有其他事务在同时执行。 多版本并发控制Multi-Version Concurrency Control、 两阶段加锁(Two Phase Locking, 2PL)、乐观并发控制 (OCC) Durability 持久性 执行引擎 日志和恢复 并发控制 索引/文件/ 记录管理器 缓冲区管理器 缓冲区 锁表 存储管理器 存储 查询计划 对索引、文件和 记录的请求 页命令 事务命令 查询、更新 用户/ 应用 DDL命令 数据库管理员 数据、元数据、索引 日志页 读、写页 元数据、 统计数据 元数据 9 存储介质的类型 ■ Volatile storage 易失性存储器 DRAM, update PostgreSQL和Greenplum采用的策略 思考: 1. MySQL同样采用MVCC,事务恢复的时候为什么需要undo log? 2. 出现新硬件(NVRAM)并不断得到广泛应用,WAL是否适合新硬件特点? (业内的探索:CMU, VLDB 2016, Write-Behind Logging) 20 Version Storage MySQL、Oracle PostgreSQL0 码力 | 42 页 | 2.12 MB | 1 年前3
共 22 条
- 1
- 2
- 3













