Greenplum 分布式数据库内核揭秘Confidential │ ©2021 VMware, Inc. Greenplum 分布式数 据库内核揭秘 Greenplum内核开发工程师 2022-03-16 李正龙 Confidential │ ©2021 VMware, Inc. Agenda 2 - Greenplum 分布式数据库简介 - Greenplum 集群化概述 - 分布式数据存储与多态存储 - 分布式查询优化器与执行器0 码力 | 31 页 | 3.95 MB | 1 年前3
Greenplum 精粹文集活中的方方面面,在中国的电 信、银行、保险、证券、交通、 物流、互联网和制造业当中,在几百个 Greemplum 数据库中运行的 数据就像奔腾的石油,滚滚而来,不断输送到各个不同的战线。 今天的大数据再也不是几年前热炒的概念,越来越多的客户开始 从 MPP 项目开始着手,逐渐利用混搭的技术来构造未来的数据之 湖。但是毫无疑问的是,MPP 数据库市场的迅速发展过程也见证了 Greenplum 在中国的成长之路。 自 第一次扩容是从 50 节点到 74 节点,完成 30TB 业务数据的导出、传输、 导入,以及 70TB 左右的索引数据创建,实际停机时间大约 3 天左右。 第二次扩容则到了上百节点。考虑到升级操作的可控性并缩短升级和 扩容时间,仍然采用新初始化集群的方案操作,在同一集群中初始化 了一个新数据库,将数据从旧库导出后,再导入新库。该方案在 2 天 之内完成 57TB 压缩数据的加载和 130TB 索引数据的创建。 五、Greenplum 系统表的维护及修复技巧 Greenplum 与其他所有关系型数据库一样,拥有一套管理数据库内 部对象及关联关系的元数据表,我们称之为 Greenplum 系统表。 Greenplum 的产品内核是基于 postgresql 数据库基础上开发完成的, 因此,Greenplum 系统表很多继承于 postgresql 数据库。 Greenplum 的系统表大致可分为这几类: 1) 数据库内部对象的元数据0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum机器学习⼯具集和案例• 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 新会话 建模过程 对API请求结合超时和 K-means聚集处理理 验证聚 类结果 2017.thegiac.com 主题分布热⼒力力图检测异常 2017.thegiac.com 股票分析师 固定收益分析师 客户行为热图 建模效果示例例 2017.thegiac.com 改良前 改良后 X 在R上对data sample进⾏行行分析, DCA闲置0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1梳理和打磨这个文档,并完 全根据最新的版本特性进行重新整理,希望能对中文爱好者提供一些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 6 版本都带来了极大 的性能和稳定性的提升。 声明 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的 ..................... - 362 - 第十七章:数据库的升级 ...................................................................................................... - 364 - 小版本升级........................................ ....................... - 364 - 升级条件 .................................................................................................................. - 364 - 小版本升级步骤 ..............................0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum............................................................................................ 6 引领内核创新 ................................................................................................ 白皮书 5 白皮书 | 5 欧拉开源操作系统 欧拉开源操作系统(openEuler, 简称“欧拉”)从服务器操作系统正式升级为面向数字基础设施的操作系统,支持服务 器、云计算、边缘计算、嵌入式等应用场景,支持多样性计算,致力于提供安全、稳定、易用的操作系统。通过为应用 提供确定性保障能力,支持 OT 领域应用及 OT 过联合创新、社区共建,不断增强场景化能力,最终实现统一 操作系统支持多设备,应用一次开发覆盖全场景。 openEuler 平台架构 openEuler 是覆盖全场景的创新平台,在引领内核创新,夯实云化基座的基础上,面向计算架构互联总线、存储介质 发展新趋势,创新分布式、实时加速引擎和基础服务,结合边缘、嵌入式领域竞争力探索,打造全场景协同的面向数字 基础设施的开源操作系统。0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 介绍性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 支持扩展(Extension)、自定义类型和函数、PXF eenplum 5.0 是开源之后发布的第一个稳定版本,大 约保持 1 个半月一个版本的发布速度。Greenplum 主干分支(master)开发非常活跃,众多社区 期待的特性稳健推进中,包括内核升级、新课题,处于业界领先地位。 Greenplum 社区邀请 Pivotal、阿里云、百度等社区人士共同定期举办各种技术研讨会、技术沙龙、 101 培训等活动,获得良好反馈。国内多所知名大学开设了0 码力 | 3 页 | 220.42 KB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台支持多种云不受限于基础架构的数据平台 Pivotal Greenplum 5 是首个内核百分百基于 Greenplum Database 开源项目及其相关源代码的版本。这意味着,可以通 过 greenplum.org 网站下载和编译的版本以及通过 Pivotal Network 分发的打包版本将具有相同的内核(只有个别微小差 别)。这是两年来致力于与 PostgreSQL 8.3.23 集成的成果,目的在于扩展和融入以 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload Manager 多态存储 Command Center SQL 兼容性 (Hyper-Q) PostgreSQL 内核 JSON、Apache AVRO、Apache Parquet 和 XML 结构化数据 pivotal.io/cn 白皮书 5 © Copyright 2017 Pivotal Software 是远程主机上)建立连接的新模块。Pivotal Greenplum 支持数据库用户 使用 dblink 在其他数据库中执行简短的临时查询。最后,Greenplum 5 将已安装的 Python 版本升级为 2.7。PL/Python 和 Python 管理实用程序现在均以版本 2.7 为基础。 总结 Greenplum 5 是 Pivotal 推出的新一代数据平台,在对经过十几年工程设计投入的产品进行改进的同时带来了多项新功能,0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商选择数据仓库类型:Greenplum 是 EMC 开源的数据仓库产品、Udpg 是基于 PostgreSQL 开发的⼤规模并⾏、完全托管的 PB 级数据仓库服务。 选择节点个数:UDW 是分布式架构、所有节点数据都是双机热备,实际可⽤总容量略⼩于节点个数*节点磁盘⼤⼩/2,请根据实际数据⼤⼩选择合适的节点。 3.设置数据仓库信息 必选项有数据仓库名称、DB管理员⽤⼾名、管理员密码。可选项有默认DB,默认DB的名称为 优刻得 164/206 tar zxvf fab-1.4.2.tar.gz cd fab-1.4.2 python setup.py install 升级pip pip install --upgrade pip 备注:如果pip升级过程报版本错误,请执⾏下⾯操作 请先 mv /usr/bin/pip /usr/bin/pip.bak 然后执⾏ ln -s /usr/local/python3/bin/pip0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum开源MPP数据库介绍Greenplum 开源MPP数据仓库介绍 李晓亮Greenplum工程师、内核团队经理 Confidential │ ©2022 VMware, Inc. 2 Agenda Ø Greenplum简介 Ø Greenplum的MPP架构 Ø 分布式优化器: Postgres planner 和 ORCA Ø 分布式事务和执行 Ø Greenplum存储 Kafka和其它流式来源 Confidential │ ©2022 VMware, Inc. 21 Greenplum 7的亮点:PostgreSQL v12 和新特性 Ø 6000+ 冲突 Ø 从9.4升级到12 Ø 80多万行改动 Ø Upsert, BRIN, JIT, … Confidential │ ©2022 VMware, Inc. 22 Greenplum 7的亮点:Greenplum 0 码力 | 23 页 | 4.55 MB | 1 年前3
PostgreSQL和Greenplum 数据库故障排查3)使用更严格的内存提交策略overcommit_memory: 内核参数overcommit_memory ,指定内存分配策略 可选值:0、1、2。 0, 表示内核将检查是否有足够的可用内存供应用进程使用; 如果有足够的可用内存,内存申请允许;否则,内存申请 失败,并把错误返回给应用进程。 1, 表示内核允许分配所有的物理内存,而不管当前的内存 状态如何。 2, 表示内核允许分配超过所有物理内存和交换空间总和的 内存0 码力 | 84 页 | 12.61 MB | 1 年前3
共 20 条
- 1
- 2













