Greenplum上云与优化张广舟(明虚) 阿里云高级专家 Greenplum上云与优化 — ApsaraDB for Greenplum介绍 2016Postgres中国用户大会 目 录 content ApsaraDB for GP的定位 ApsaraDB for GP的内核优化 未来的规划 2016Postgres中国用户大会 ApsaraDB for GP的定位 2016Postgres中国用户大会 2016Postgres中国用户大会 GP vs. RDS? Select count(*) from customer where status = valid group by city 列存与压缩原理举例 ….. ….. Name Id status city 列存块 ….. 列存块 列存 ≈索引 + index only 2016Postgres中国用户大会 GP vs 查看所有连接信息 杀连接 创建和删除插件 2016Postgres中国用户大会 解决OOM问题 实例的OOM有时很频繁,同时OOM很难提前监控 我们的办法 利用外部脚本监控cgroup中的内存统计 发生内存水位较高时,将实例移入公共 cgroup;同时发出cancel query信号给内核 水位下降时移回实例的cgroup 2016Postgres中国用户大会 Linux Box CGroup0 码力 | 26 页 | 1.13 MB | 1 年前3
 Brin Index主Greenplum 7中的理论与实现Confidential │ ©2021 VMware, Inc. 3 Confidential │ ©2021 VMware, Inc. Brin Index 在Greenplum 7中的 理论与实践 陈金豹,VMWare内核工程师 Confidential │ ©2021 VMware, Inc. 目录 Brin Index On Heap AppendOnly Table0 码力 | 32 页 | 1.04 MB | 1 年前3
 Greenplum Database 管理员指南 6.2.1有些观点与官方手册有 出入,仅代表编者本人观点,与官方手册无关。本书中可能会提及一些非官方的命令和 工具等,仅用于讲解相关知识,如有缺失相关细节的情况,请谅解。 致读者 如果您在阅读和参考本书的过程中发现有任何不妥之处,或者有任何的建议和意见, 欢迎联系编者,本书主要针对 GP 数据库的爱好者进行编写,包括产品的安装和使用说 明,以及最佳实践等内容。本书的发布更新情况与编者的时间有关,不做承诺。 ........................................................................................ - 14 - 冗余与故障切换 ............................................................................................... ............................................................................. - 15 - Instance 故障切换与恢复 .................................................................................... - 17 - Master0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商pxf 可读表 4. 从 hdfs 外部表中读取数据并写⼊⽬的 greenplum 集群 FAQs 创建好数据仓库之后怎么连接到UDW? UDW⽀持从mysql导⼊数据吗? HDFS/Hive与UDW之间可以导⼊导出数据吗? UDW中怎么kill掉正在执⾏的SQL语句? 如何通过外⽹访问UDW? 节点扩容时数量有没有什么限制? 数据仓库价格 数据仓库价格 ⽬录 Greenplum数据仓库 1 数据类型 数据类型 通过选择最合适的数据类型可以节省磁盘空间,提⾼查询性能。字符类型的数据建议使⽤ TEXT 或者 VARCHAR 类型,不要使⽤ CHAR 类型。TEXT 或者 VARCHAR 类型能够减少存储空 间。选取合适的数字类型,如 INT 或者 SMALLINT 能满⾜业务需求时,使⽤ BIGINT 会带来磁盘空间的浪费。 2 存储⽅式 存储⽅式 udw 在创建表格的时候 UDW Copyright © 2012-2021 UCloud 优刻得 129/206 做哈希分布。 在MPP环境下,查询的执⾏时间是由所有节点决定的。当数据出现倾斜时,会导致较低的性能以及内存溢出的情况。 当选择分布键时,考虑以下⼏个⽅⾯: 1. 为所有的表显⽰地指定哈希或随机分布,不要使⽤默认的。 2. 理想的情况下,使⽤⼀个可以将数据均匀分布在各个节点上的字段作为分布键。 3.0 码力 | 206 页 | 5.35 MB | 1 年前3
 并行不悖- OLAP 在互联网公司的实践与思考1 并行不悖 – OLAP 在互联网公司的实践与思考 赵飞祥 2 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 Ø事务大,频率相对小,并发低 • 未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 •0 码力 | 43 页 | 9.66 MB | 1 年前3
 Greenplum 精粹文集hash join 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 计算的功能也无能为力,就其因估计还是受到 mysql 在这方面限制。 3) 扩展性方面,Postgresql 比 mysql ython psycopg2 等,所以 Greenplum 与第三方工具、BI 报表集成的时候非 常容易;对于 postgresql 的 contrib 中的一些常用模块 Greenplum 提 供了编译后的模块开箱即用,如:oraface、postgis、pgcrypt 等, 对于其它模块,用户可以自行将 contrib 下的代码与 Greenplum 的 include 头文件编译后,将动态 的良好扩展性(这里是 extension,不 是 scalability),Greenplum 可以采用各种开发语言来扩展用户自定 义函数(UDF)(我个人是 Python 和 C 的 fans,后续章节与大家分享)。 这些自定义函数部署到 Greenplum 后可用充分享受到实例级别的并行 性能优势,我们强烈建议用户将库外的处理逻辑,部署到用 MPP 数 据库的 UDF 这种 In-Database 的方式来处理,你将获得意想不到的性0 码力 | 64 页 | 2.73 MB | 1 年前3
 Pivotal Greenplum 最佳实践分享 kernel.shmmax = 1000000000  kernel.sem = 250 512000 100 2048  Redhat 6.2以后,内核增加了hugepage大页内存管理,关闭hugepage可以提高混合负载管理性能 设置办法:修改local脚本 For SUSE /etc/init.d/boot.local For RHLE /etc/rc gp_autostats_on_change_threshold 5000000 5000000 gp_vmem_protect_limit 32768(64G内存时,其他配置 依据实际内存进行调整) 16384(64G内存时,其他配置 依据实际内存进行调整) gp_segment_connect_timeout 10min 10min log_min_duration_statement Vacuum:标记垃圾空间为可再利用 Vacuum用于将数据表垃圾空间标记到FSM(自由空间映射),一般也不回收空间,当往该表插入新数据时,数据库会重 新这些空间。 FSM驻留在内存中,FSM的大小必须足够标记数据库中的所有过期记录。如果尺寸不够大,超出自由映像空间的过期记录 占用的空间将无法被VACUUM命令标记。可通过修改max_fsm_pages、max_fsm_relations放大这些参数0 码力 | 41 页 | 1.42 MB | 1 年前3
 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum社区和欧拉开源社区深化合作,在欧拉开源操作系统(openEuler, 简称“欧拉”)编译测试了高级分 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点, 同时介绍了 Greenplum 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源社区强强联手,不仅是双方业务用户所期盼的,同时也是 Greenplum 社区与对中国本地开源社 区的深入合作尝试。本次合作对双方打造丰富应用生态注入了鲜活动力! 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 持服务 器、云计算、边缘计算、嵌入式等应用场景,支持多样性计算,致力于提供安全、稳定、易用的操作系统。通过为应用 提供确定性保障能力,支持 OT 领域应用及 OT 与 ICT 的融合。 欧拉开源社区通过开放的社区形式与全球的开发者共同构建一个开放、多元和架构包容的软件生态体系,孵化支持多种 处理器架构、覆盖数字设施全场景,推动企业数字基础设施软硬件、应用生态繁荣发展。 openEuler0 码力 | 17 页 | 2.04 MB | 1 年前3
 Pivotal Greenplum 5: 新一代数据平台模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 询。与旧式 MPP 数据库中常用的传统 RDBMS 查询优化器相比,GPORCA 大幅度地提高了查询性能。 Pivotal Greenplum 5:新一代数据平台 作为重要的新版本,Pivotal Greenplum 开源项目及其相关源代码的版本。这意味着,可以通 过 greenplum.org 网站下载和编译的版本以及通过 Pivotal Network 分发的打包版本将具有相同的内核(只有个别微小差 别)。这是两年来致力于与 PostgreSQL 8.3.23 集成的成果,目的在于扩展和融入以 Greenplum 为中心的生态系统和社 区。为了更好地贴合 PostgreSQL 社区的模式,他们对代码库进行了重构,这样一来,便可以更轻松地从最新版本(未来 的强大之处在于 能够以并行方式针对提交的 SQL 语句计算大量可能的查询计划。为了生成最快的计划,GPORCA 会计算数千种备选查询 执行计划,并根据成本做出决策。它还能免去不必要的剖析步骤,从而缩短优化时间。与传统查询优化器相比,GPORCA 可以计算更多备选计划,因此能够优化更多查询。3 现代数据分析和商业智能 (BI) 生成的 SQL 查询往往带有相关子查询,内部子查询需要外部查询的相关知识。GPORCA0 码力 | 9 页 | 690.33 KB | 1 年前3
 Greenplum 排序算法问题一:分割阶段只需要顺序扫描一次外存,最简单的策略是读取外存数据,加 载到内存,当内存用满时,执行快速排序等内排序算法,生成一个顺串。之后清 空内存,继续读取外存数据,如此反复,直到所有外存数据处理完毕。该算法生 成的每一个顺串的大小都不会超过内存的大小,而顺串越小,合并阶段的代价 就越高,需要读取外存的次数也越多,有没有办法在分割阶段就生成大于内存 大小的顺串呢? 归并排序的三个问题 23 替换选择算法 替换选择算法 24 Knuth 5.4.1R替换选择算法: ● 1. 初始化阶段,读取输入元组至内存,并建立最小堆。 ● 2. 弹出堆顶元组,输出到顺串文件的缓冲区,并记录该元组的排序键为 lastkey。 ● 3. 读取新元组,如果元组排序键大于等于lastkey,插入堆顶,并调整堆,使其有 序。 ● 4. 如果新元组排序键小于lastkey,将该元组放入堆尾,并将堆的大小减1。 ● 5. 重复第2步,直至堆大小变为0。 调整败者树,当我们把最小者输入到输出文件以后,需要从相应的顺串取出 一个记录补上去。补回来的时候,我们就需要调整败者树,我们只需要沿着当前 节点的父亲节点一直比较到顶端。比较的规则是与父亲节点比较,胜者可以参 与更高层的比较,一直向上,直到根节点。失败者留在当前节点。 败者树 28 败者树 1 10 30 44 56 . . . 6 8 34 64 66 . . . 7 11 12 130 码力 | 52 页 | 2.05 MB | 1 年前3
共 25 条
- 1
 - 2
 - 3
 













