Greenplum 6: 混合负载的理想数据平台Correlated Queries 01 Dynamic Partition Elimination 03 动态分区裁剪 公共表达式的下推 高效处理相关子查询 超过8年的投资,多位博士的长期贡献 基于Cascades / Volcano框架, Goetz Graefe 优化分布式大数据系统中特别复杂的查询 18 Madlib: 迭代并行模型训练 Master model = init(…) x/7 ■ PostgreSQL合并:BRIN索引和并行扫描 ■ 锁和事务的优化 ■ 磁盘IO的资源管理 ■ 更多思路? 资源 ■ 中文社区:http://greenplum.cn ■ 文档:https://gpdb.docs.pivotal.io/6-0Beta/main/index.html ■ 代码:https://github.com/greenplum-db/gpdb 由于微信群组规定限制,请首先添加这个入群0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum 精粹文集年底已经开源和成立社区(在开源第一天就有上千个 Download), 可以说,Greenplum 已经不仅仅只是 Pivotal 公司一家的产品,我们相 信越来越多组织和个人会成为 Greenplum 的 Contributor 贡献者,随 着社区的发展将推动 GreenplumMPP 数据库走向新的高速发展旅程。 (分享一下开源的直接好处,最近我们某用户的一个特殊需求,加载 数据中有回车等特殊字符,我们下载了 GP 外部表 gpfdist 多种级别的信息。 还有plpythonu,这个是Greenplum自带的language,一些通用的函数, 用 plpythonu 来编写也是极其不错的选择。 关于这两种语言,可以参考 PostgreSQL 文档的【服务器端编程】章节, 以及 Perl 和 Python 语言。 Greenplum 是开放的数据库,又是开源的数据库,可以分享的知识其 实真的很多,如果你这方面的知识基础还不是很高,可以多读一些文0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1GP 的发展壮大多做那么一点点贡献,挤出一点时间,重新梳理和打磨这个文档,并完 全根据最新的版本特性进行重新整理,希望能对中文爱好者提供一些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 6 版本都带来了极大 的性能和稳定性的提升。 声明 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部分内容都经过编者重新考量和实测验证,有些观点与官方手册有 出入,仅代表编者本人观点,与官方手册无关。本书中可能会提及一些非官方的命令和 工具等,仅用于讲解相关知识,如有缺失相关细节的情况,请谅解。 致读者 如果您在阅读和参考本书的过程中发现有任何不妥之处,或者有任何的建议和意见, 欢迎联系编者,本书主要针对 GP 数据库的爱好者进行编写,包括产品的安装和使用说 Master 客户端的访问许可是通过一个叫做 pg_hba.conf(也是标准的 PostgreSQL 的 认证文件)的配置文件来控制的。关于该文件的细节可以参考 PostgreSQL 的文档。 在 GP 中,Master 的 pg_hba.conf 文件控制着客户端连接到 GP 系统的认证。 在 Instance 上也存在 pg_hba.conf 文件,通常此文件已经被正确配置为允许从0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum...................................................................... 12 Greenplum 中文社区在欧拉开源社区中的贡献 .................................................................................... 13 openEuler 白皮书 3 白皮书 | 3 Greenplum 参与欧拉开源社区的贡献内容 ................................................................................................ 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原则,用全新的HTAP核心设计满足实时处理业务需求。在此也为所有为Greenplum on openEuler 成功测试运行所做努力贡献的人员表示感谢! 摘要 Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在不同操作系统、 不同芯片的环境,适合本地部署、多云环境(公有云和私有云)中。Greenplum0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 介绍MPP 的优势,提高了分析的效率;MADlib 可 以在全量数据而不是抽样数据上进行分析,提高了精度。 ● 开放源代码且持续大力投入的平台: 2017 年 Pivotal 在 github 的开源贡献列表中全球排 名第四左右。 采用开源方案,不担心后门问题,不担心被锁定。开源还可以构建更好的 生态。 ● 采用敏捷软件开发方法开发的平台:Greenplum 采用敏捷方法开发,实现了快速迭代、持 数据库。开源之后,Greenplum 社区发展活跃,短短 2 年左右,在全 球有上百来自美国、中国、俄罗斯、日本、英国、德国、芬兰、瑞士等国家的贡献者,获得社会 各界的广泛关注。其中 Greenplum 中文社区尤为活跃,目前约有半数的贡献来自中国开发者,社 区贡献者包括阿里云、中移动等大公司,也有诸多中小公司和数据库爱好者。 开源之后,Greenplum 把敏捷软件开发方法学引入到分布式数据库的开发中,通过使用站立会议、0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum上云与优化2016Postgres中国用户大会 未来规划 满足客户需求! 列存优化 – 某些场景下提高数倍性能 CPU优化 – 对GP执行器的静态编译优化 流式备份 – 实时的物理备份 社区参与 – 成为社区积极的贡献者 2016Postgres中国用户大会 2016Postgres中国用户大会0 码力 | 26 页 | 1.13 MB | 1 年前3
Greenplum开源MPP数据库介绍500多付费企业客户 Ø 成千上万的开源用户 Ø 支撑巨大的生产集群: q 250+ servers q 10+ PetaBytes Ø 十几个甚至几十个国内国外的衍生项 目(我们是真开源,欢迎大家贡献) Confidential │ ©2022 VMware, Inc. 6 Greenplum的MPP架构 Ø Massively: q PB级的数据,单台主机无法处理 q 所以数据分布在多个主机上0 码力 | 23 页 | 4.55 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台的后续发展,Pivotal 于 2015 年决定将其产品 Greenplum Database 开源。由此产生的最积极结果是 Greenplum Database 社区规模迅速扩大。该社区的成员为核心组件的开发贡献了力量,并且已经受益于 Pivotal 长久以来 在市场上取得的成功。从 2017 年初开始,他们每个月发布一次 Greenplum 更新,使其保有快速而可靠的创新力。 此次推 出的 Greenplum0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum机器学习⼯具集和案例LDA ⾃自动分析每个⽂文档,统计⽂文档内的词语,根据统计的信息来断定当 前⽂文档含有哪些主题,以及每个主题所占的⽐比例例各为多少。 主题模型:Latent Dirichlet Allocation (LDA) 2017.thegiac.com 基于LDA特征的聚类 会话 主题分布 K-means 会话聚类 • 把每个会话看成一篇文章 • 百万级别文档 • 词汇量 8000+0 码力 | 58 页 | 1.97 MB | 1 年前3
Brin Index主Greenplum 7中的理论与实现Inc. 1 Confidential │ ©2021 VMware, Inc. Greenplum中文社区 https://cn.greenplum.org 博文 · 资料 · 文档 · 项目 Confidential │ ©2021 VMware, Inc. 3 Confidential │ ©2021 VMware, Inc. Brin Index 在Greenplum0 码力 | 32 页 | 1.04 MB | 1 年前3
共 13 条
- 1
- 2













