Greenplum 精粹文集下午5:46 Greenplum 精粹文集 1 一、Greenplum 的前生今世 1. Greenplum 的起源 Greenplum 最早是在 10 多年前(大约在 2002 年)出现,基本上 和 Hadoop 是同一时期(Hadoop 约是 2004 年前后出现的,早期的 Nutch 可追溯到 2002 年)。 互联网行业经过之前近 10 年的由慢到快的发展,累积了大量信息和数 据 对于其它模块,用户可以自行将 contrib 下的代码与 Greenplum 的 include 头文件编译后,将动态 so 库文件部署到所有节点就可进行测 试使用了。有些模块还是非常好用的,例如:oraface,基本上集成了 Oracle 常用的函数到 Greenplum 中,曾经在一次 PoC 测试中,用户 提供的 22 条 Oracle SQL 语句,不做任何改动就能运行在 Greenplum 上。 通常利用这些技术大幅提高数据的检索效率。 ·MAShuffle 效率对比 Hadoop Shuffle 对比 MPP 计算中的重分布 -- 由于 Hadoop 数据 与节点的无关性,Shuffle 是基本避免不了的;而 MPP 数据库对于 相同 Hash 分布数据不需要重分布,节省大量网络和 CPU 消耗。 Mapreduce 没有统计信息,不能做基于 cost-base 的优化;MPP 数据库可0 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal Greenplum 最佳实践分享Greenplum运维常用命令 Greenplum日常检查和故障处理 Greenplum项目经验分享 目录 Greenplum运维常见问题 Greenplum运维常用命令 Greenplum日常检查和故障处理 Greenplum项目经验分享 内核参数 通常情况下,内核参数按照GPDB安装手册配置,如需要增加连接数支持,以下参数需要增大 到一定阀值才收集统计信息; – gp_autostats_mode = on_change – gp_autostats_on_change_threshold = 5000000(资料依据项目而定) Truncate操作不会丢失字段级统计信息,在适当条件下可仅针对系统字段执行Analyze 垃圾空间回收 • GPDB采用MVCC机制,UPDATE 或 DELETE并非物理删除,而只是对无效记 mem_protect_limit *0.9 – Instance Number:4 CCB设置以上参数后,基本上没有OOM发生,唯一遇到的是left join超大表(400亿条记录)导致的,用户已优化SQL 资源队列设置没有一个统一的标准,具体的参数设置需要根据项目的实际运行情况, 可以通过gp_toolkit.gp_resqueue_status 观察到队列的使用情况,逐步调整参数到最优状态。0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1和相关技术领域,主要工作职责是 售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 Greenplum 第二章:分布式数据库概念 GP 是一个分布式数据库集群系统。这就意味着在物理上,数据是存储在多个数据 库上的(称为 Instance)。这些独立的数据库通过网络进行通信(称为内联网络)。分 布式数据库的一个基本特征是,用户和客户端程序在访问时如同访问一个单机数据库 (GP 访问 Master)一样方便,数据库内部的分布式实现不需要用户过多的关心,对于 客户端应用来说,访问 GP 数据库与单机数据库没有什么区别。不过,对于开发人员和 系统。按照惯例,该系统 User 的名称使用 gpadmin。gpadmin 用户作为 GP 系统的默认 SUPERUSER,同时是 GP 安装目录及相关数据文件的 Owner。默认的管理 员账户是 GP 系统的基本要素,如果没有该账户,整个数据库系统将无法运行,GP 集 群不可以使用 root 用户进行初始化,另外,没有办法限制 gpadmin 用户的访问权限, 因为这是第一个 SUPERUSER。gpadmin0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 GreenplumopenEuler 也是一个技术孵化器。通过每半年发布一次的创新版,快速集成 openEuler 以及其他社区的最新技术成 果,将社区验证成熟的特性逐步回合到发行版中。这些新特性以单个开源项目的方式存在于社区,方便开发者获得源代 码,也方便其他开源社区使用。 社区中的最新技术成果持续合入发行版,发行版通过用户反馈反哺技术,激发社区创新活力,从而不断孵化新技术。 发行版平台 年开源,在得到商业客户的支持后,也获得 Greenplum Database 社区的拥抱。该社区的成员为核心组件的开发贡献了力量,并且已经受益于长久以来在市场上取得的成功。 从 2017 年初开始,他们基本上每个月发布一次 Greenplum 更新,使其保有快速而可靠的创新力。Greenplum 是一 个功能齐全、动态的、创新型分析数据平台,其产品路线图规划健全且充满活力,无论是短期内还是未来长期时间里,0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 编译安装和调试attach 到已经运行的进程。 首先启动 clion,导入 Greenplum 源代码项目。clion 需要 CMakeLists.txt 文件构建工程项目。将 下面的 CMakeLists.txt 放到 Greenplum 源代码目录的顶层目录中,再启动 clion 既可建立合适的 工程项目。 $ cat CMakeLists.txt cmake_minimum_required(VERSION0 码力 | 15 页 | 2.07 MB | 1 年前3
Greenplum 架构概览Greenplum 架构概览 基本拓扑结构 如上图,我们可以认为 Greenplum(后简称 GP) 就是很多个 PostgreSQL 实例所组成的集群。GP 对外提供统⼀的数据接⼝,并帮助⽤户⾃动完成数据分⽚、并⾏ 查询与聚合等诸多分布式数据库功能 GP 是⼀种典型的 Master-Segment 架构,⼀个 GP 集群通常由⼀个 Master 节点、⼀个 Standby Master 则将会 在后⾯的总结中详述 同时,GP 在存储上⽀持多态存储,也就是对于同⼀份数据,既可以选择基于⾏的存储⽅式,也可以选择基于列的存储⽅式,并且⽀持诸如 S3、HDFS 等外部存储 GP 基本查询流程 PostgreSQL 进程模型 PostgreSQL(以下简称 PG)采⽤的是经典的 C/S 模型,即 Client-Server 模型,同时使⽤多进程的⽅式⽀持并发查询与写⼊。也就是说, postgres 进程与该客户端建⽴连接,postmaster 进程不再处理与该客户端的相关请求 postgres 进程接收客户端的请求,处理并返回结果。当然,响应需要经过 libpq 库的处理 基本查询流程 Query Dispatcher 当 client 向 Master 发起查询请求时,Master 节点上的 postmaster 进程将会 fork 出⼀个⼦进程,叫做 Query0 码力 | 1 页 | 734.79 KB | 1 年前3
Greenplum介绍segment。 GP的SQL支持程度 基本上绝大多数PostgreSQL支持的SQL,在 greenplum都支持,如常见的建表、建索引的ddl,以及 一般的dml语句。 Greenplum3.X不支持表空间。4.0提供了支持 tablespace功能。 不支持trigger。 建表语句多了distributed by 子名外, 其它的SQL语法 基本上都与PostgreSQL一样: CREATE0 码力 | 38 页 | 655.38 KB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商服务的架构图如下所⽰: UDW 采⽤⽆共享的 MPP 架构,适⽤于海量数据的存储和计算。UDW 的架构如上图所⽰,主要有 Client、Master Node 和 Compute Node 组成。基本组成部分的功能如下: 产品架构 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 7/206 1. Client:访问 UDW 的客⼾端 ⽀持通过 1 数据类型 数据类型 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 82/206 udw 的数据类型和 postgresql 基本⼀致,在选择数据类型的时候应该尽可能占⽤空间⼩,同时能够保证存储所有可能的数值并且最合理地表达数据。 使⽤字符型数据类型保存字符串,⽇期或者⽇期时间戳类型保存⽇期类型,数值类型来保存数值。 使⽤ ⽬前经过测试的有:Zeppelin 和 SuperSet。 ⼀、 ⼀、 UDW 接⼊ 接⼊ Zeppelin Zeppelin 简介 简介 Zeppelin 是⼀个开源的 Apache 的孵化项⽬. 它是⼀款基本 web 的 notebook ⼯具,⽀持交互式数据分析。通过插件的⽅式接⼊各种解释器(interpreter),使得⽤⼾能够以特定的语⾔ 或数据处理后端来完成交互式查询,并快速实现数据可视化。0 码力 | 206 页 | 5.35 MB | 1 年前3
Brin Index主Greenplum 7中的理论与实现1 Confidential │ ©2021 VMware, Inc. Greenplum中文社区 https://cn.greenplum.org 博文 · 资料 · 文档 · 项目 Confidential │ ©2021 VMware, Inc. 3 Confidential │ ©2021 VMware, Inc. Brin Index 在Greenplum0 码力 | 32 页 | 1.04 MB | 1 年前3
Greenplum上云与优化Runtime 本地存储 >5-30倍的性能优势 2016Postgres中国用户大会 ApsaraDB for GP vs. AWS Redshift? “有史以来卖的最好的云服务” 对比项目 ApsaraDB for Greenplum(SSD/SATA) AWS RedShift 外部表 支持OSS外部表 无此设计 地理信息支持 支持(自带PostGIS) 不支持 分区表支持 支持0 码力 | 26 页 | 1.13 MB | 1 年前3
共 17 条
- 1
- 2













