Greenplum 精粹文集下午3:38 Greenplum 精粹文集 7 Greenplum 采用 Postgresl 作为底层引擎,良好的兼容了 Postgresql 的 功 能,Postgresql 中 的 功 能 模 块 和 接 口 基 本 上 99% 都 可 以 在 Greenplum 上 使 用, 例 如 odbc、jdbc、oledb、perldbi、python psycopg2 等,所以 Greenplum postgresql 的 contrib 中的一些常用模块 Greenplum 提 供了编译后的模块开箱即用,如:oraface、postgis、pgcrypt 等, 对于其它模块,用户可以自行将 contrib 下的代码与 Greenplum 的 include 头文件编译后,将动态 so 库文件部署到所有节点就可进行测 试使用了。有些模块还是非常好用的,例如:oraface,基本上集成了 Oracle 常用的函数到 仅 只 是 简 单 的 等 同 于 “Postgresql+interconnect 并行调度 + 分布式事务两阶段提交”, Greenplum 还研发了非常多的高级数据分析管理功能和企业级管理模 块,如下这些功能都是 Postgresql 没有提供的: ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 ·Hadoop 外部表 ·Gptext0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum Database 管理员指南 6.2.1出现无法正常工作的故障时,自动激活 Standby 来接管 Master 的任务。下面的流程图,是编者实现的 Master 和 Standby 自动切换的逻辑流程图, 可以供读者参考,不过,编者不方便公开实现的代码。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 13 - Master 的连接数是有限的,缺省值为 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 89 - $ gpfilespace --movetransfilespace default 在编者看来,这一块的功能几乎不会有人用到,一般来说,Instance 的工作目 录所在的磁盘,就是整个主机上性能最好的磁盘了。 注意:处所说的是 6 版本的概念。 可以选择将临时文件或事务文件转移到一个特殊的表空间从而改善 情就好了, 好好使用ZSTD就对了。 在列上设置压缩 注意:编者不希望读者浪费很多时间来学习这部分的知识,所以,先把观点列出来,编 者根据10年的经验判断,除了作为一块知识来学习外,可能永远也不需要在每个字段 上设置压缩,因为那是极其多余和毫无意义的。在真实的使用环境中,往往列存储的选 择都应该是极其少见的,因为列存储的选择需要满足多方面条件,选择列存的往往是那 种0 码力 | 416 页 | 6.08 MB | 1 年前3
 Greenplum 新一代数据管理和数据分析解决方案CPU 共4core, 16GB;SUN X4200一台,2路dual-core CPU 共4core,8GB – 存储平台:每台X4500中各48块500GB硬盘,共96 * 500GB – 网络平台:每台X4500和X4200上各有4块千兆网卡 – 软件平台:Solaris 10 + GreenPlum v3.1 Beta – 应用软件:SQL语句 • 数据导入测试 – A - 67858566 CIFISGR I 集团用户业务信息档案表 55分 4.31G 1167530 3 181秒 4.69 11820161 18x Greenplum计算能力测试结果 Query:合并字段测试、代码转换测试。GP系统计算耗时与Oracle系统比较如下: table typ e SQL 结果 Oracle 测试耗时 结果 GP测 试耗时 GP提升 倍数 FS_Z H_CD FISPA0 码力 | 45 页 | 2.07 MB | 1 年前3
 Greenplum数据仓库UDW - UCloud中立云计算服务商pg_close($db); ?> 1.7 node客户端访问 客户端访问 1)安装pg模块 npm install -g node_gyp npm install -g pg 2)连接数据库并访问 ⽰例代码如下: var pg = require('pg'); var constring = "tcp://username:password@ip:port/database"; var client 语法: ANALYZE [VERBOSE] [ROOTPARTITION [ALL] ] [table [ (column [, ...] ) ]] 命令: BEGIN 描述: 开始⼀个事务块 语法: BEGIN [ WORK | TRANSACTION ] [ 事务模式] [ READ WRITE | READ ONLY ] 事务模式为下⾯之⼀: ISOLATION LEVEL UNCOMMITTED} 命令: SHOW 描述: 显⽰运⾏时参数值 语法: SHOW 参数名 SHOW ALL 命令: START TRANSACTION 描述: 开始⼀个事务块 语法: START TRANSACTION [ 事务模式 [, ...] ] 事务模式为下⾯之⼀: 开发指南 Greenplum数据仓库 UDW Copyright © 2012-20210 码力 | 206 页 | 5.35 MB | 1 年前3
 Brin Index主Greenplum 7中的理论与实现Brin在AppendOnly Table上的实现 性能测试 5 Confidential │ ©2021 VMware, Inc. Block Range Index 存储数据块中元组字段的最 大最小值,用于过滤不符合条 件的数据块 1 3 2 5 7 8 8 10 9 11 11 12 [1, 5] [7, 10] [9, 12] Brin Heap Confidential │0 码力 | 32 页 | 1.04 MB | 1 年前3
 Greenplum上云与优化from customer where status = valid group by city 列存与压缩原理举例 ….. ….. Name Id status city 列存块 ….. 列存块 列存 ≈索引 + index only 2016Postgres中国用户大会 GP vs. Hadoop? Orca优化器 SQL Runtime 本地存储 >5-30倍的性能优势0 码力 | 26 页 | 1.13 MB | 1 年前3
 Greenplum on Kubernetes
容器化MPP数据库○ Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Apache Spark ○ CockroachDB ○ Apache HAWQ 云数据库存储方案 ● 块存储 ○ 文件系统接口 ● 对象存储 ○ 成本低 ○ 扩展性强 ○ 访问延迟高 Greenplum on Kubernetes Network Interconnect Standby0 码力 | 33 页 | 1.93 MB | 1 年前3
 Greenplum 编译安装和调试编译安装和调试 本文先介绍如何从源代码编译安装Greenplum、初始化Greenplum集群。然后介绍SQL在 Greenplum中的典型执行路径,最后介绍一些调试技巧。 源代码使用 Greenplum 开源社区最新源代码 6X_STABLE 分支: https://github.com/greenplum-db/gpdb,内核代码基于 PostgreSQL 9.4。目前(2019/04/23) 4。目前(2019/04/23) 主 干分支的代码基于 PostgreSQL 9.4。合并到 PostgreSQL 9.5 的工作也已经开始,有关最新工作 进展请参见:https://github.com/greenplum-db/gpdb-postgres-merge。 1. 从源代码编译 Greenplum Greenplum 目前官方支持 Redhat/Centos/SuSE/Ubuntu 有关更详细的信息请参考 README.macOS.md。 1.2 在 Redhat/Centos 系统上编译 本小节以 RHEL7 为例介绍如何编译Greenplum。 首先下载 Greenplum 源代码 $ git clone https://github.com/greenplum-db/gpdb Greenplum Database 编译和运行依赖于各种系统库和Python库。需要先安装这些依赖:0 码力 | 15 页 | 2.07 MB | 1 年前3
 Greenplum机器学习⼯具集和案例强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017 数据编辑/整理理 之前 之后 性能提升 ● 181 ⾏行行代码 ● 75 分钟 ● 116 ⾏行行代码 ● 8 分钟 9.35x 特征编辑 ● 439 特征 ● 4,517 ⾏行行代码 ● 100 分钟 ● 934 特征 ● 1,438 ⾏行行代码 ● 30 分钟 多 495 个特征,快 3.33x 信息价值 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动 化 X 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客 户 商业影响 2017.thegiac.com 用户案例例2 基于API日志的⾦金金融产品⽤用户分析0 码力 | 58 页 | 1.97 MB | 1 年前3
 Pivotal Greenplum 5: 新一代数据平台开源项目及其相关源代码的版本。这意味着,可以通 过 greenplum.org 网站下载和编译的版本以及通过 Pivotal Network 分发的打包版本将具有相同的内核(只有个别微小差 别)。这是两年来致力于与 PostgreSQL 8.3.23 集成的成果,目的在于扩展和融入以 Greenplum 为中心的生态系统和社 区。为了更好地贴合 PostgreSQL 社区的模式,他们对代码库进行了重构, PIVOTAL GREENPLUM 5:新一代数据平台 GPORCA:Pivotal 查询优化器更新 对直到最近,Greenplum 一直采用传统查询优化器 (LQO) 。这是适用于 Greenplum 代码库的原始 PostgreSQL 规划器的衍 生产品。PostgreSQL 规划器最初是为单节点 PostgreSQL 设计的,更适用于 OLTP 查询,而不是分析数据平台中长时间运 行的查询。尽管具 年底,Greenplum 开始在内部开发一款新型查询优化器,并在 Greenplum 4.3.5 版中首次推出,名为 GPORCA。 GPORCA 能够针对分析数据仓库中常见的一些复杂情况生成更高效的代码,因而非常实用。过去,系统默认使用传统查询 优化器,但自 Greenplum 5 起,GPORCA 将成为默认查询优化器。它能够通过并发的混合工作负载处理多种复杂查询, 并可提高查询性能。2 这样0 码力 | 9 页 | 690.33 KB | 1 年前3
共 17 条
- 1
 - 2
 













