Greenplum 分布式数据库内核揭秘Confidential │ ©2021 VMware, Inc. Greenplum 分布式数 据库内核揭秘 Greenplum内核开发工程师 2022-03-16 李正龙 Confidential │ ©2021 VMware, Inc. Agenda 2 - Greenplum 分布式数据库简介 - Greenplum 集群化概述 - 分布式数据存储与多态存储 - 分布式查询优化器与执行器0 码力 | 31 页 | 3.95 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum........................................................................... 5 openEuler 面向多样性算计算的创新 .................................................................................................. ........................................................................................... 6 引领内核创新 ................................................................................................. ........................................................................................... 8 以开源创新替代专有分析环境 ..........................................................................................0 码力 | 17 页 | 2.04 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台5:新一代数据平台 .........................................................................................3 以开源创新替代专有分析环境 .......................................................................................... 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 图 1:Pivotal Greenplum 5:新一代数据平台。 以开源创新替代专有分析环境 为了支持 Greenplum 的后续发展,Pivotal 于 2015 年决定将其产品 Greenplum Database 开源。由此产生的最积极结果是 Greenplum Database 年初开始,他们每个月发布一次 Greenplum 更新,使其保有快速而可靠的创新力。 此次推 出的 Greenplum 5 是一个功能齐全、动态的、创新型分析数据平台,其产品路线图规划健全且充满活力,无论是短期内还 是未来长期时间里,都能满足客户的需求。 支持多种云不受限于基础架构的数据平台 Pivotal Greenplum 5 是首个内核百分百基于 Greenplum Database 开源项目及其相关源代码的版本。这意味着,可以通0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum 精粹文集车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单 不需要你花费 较多的精力来模式化你的数据,节省数据模型设计和数据加载设计 方面的投入。这些系统包括:历史数据系统、ETL 临时数据区、数 据交换平台等等。 切记,千万不要为了大数据而大数据(就好像不要为了创新而创新一 个道理),否则,你项目最后的产出与你的最初设想可能 将差之千里,行业内不乏失败案例。 最后,提一下,GreenplumMPP 数据库支持用“Hadoop 外部表“方 式来访问、加载 HadoopFS 五、Greenplum 系统表的维护及修复技巧 Greenplum 与其他所有关系型数据库一样,拥有一套管理数据库内 部对象及关联关系的元数据表,我们称之为 Greenplum 系统表。 Greenplum 的产品内核是基于 postgresql 数据库基础上开发完成的, 因此,Greenplum 系统表很多继承于 postgresql 数据库。 Greenplum 的系统表大致可分为这几类: 1) 数据库内部对象的元数据0 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal HVR meetup 20190816线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时,天天拍车也正在布局二手车金融、二手车保卖等创新业务。截 至目前,天天拍车已在全国超过50个多城市设立线下交易服务中心。 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 14 Compare0 码力 | 31 页 | 2.19 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考确认数据如何计算,解决数据存储和计算加工的问题 Ø 确认数据集市状态,解决结果数据最终展示的问题 • 实现方式 Ø OLAP与OLTP不同,没有非常固定的方式 Ø 没有事务性工作 Ø 只有针对每个业务需求的架构新、探索性、创新性工作 41 Greenplum扩展规划 现有集群功能扩展方式 • 现有集群支撑能力 Ø 根据集群的支撑能力和规划,三年内有足够的空间和计算能力 Ø 如需扩展,有多种扩展方式可以选择 Ø 理论扩展方式,与建议扩展方式0 码力 | 43 页 | 9.66 MB | 1 年前3
PostgreSQL和Greenplum 数据库故障排查3)使用更严格的内存提交策略overcommit_memory: 内核参数overcommit_memory ,指定内存分配策略 可选值:0、1、2。 0, 表示内核将检查是否有足够的可用内存供应用进程使用; 如果有足够的可用内存,内存申请允许;否则,内存申请 失败,并把错误返回给应用进程。 1, 表示内核允许分配所有的物理内存,而不管当前的内存 状态如何。 2, 表示内核允许分配超过所有物理内存和交换空间总和的 内存0 码力 | 84 页 | 12.61 MB | 1 年前3
Greenplum上云与优化Greenplum上云与优化 — ApsaraDB for Greenplum介绍 2016Postgres中国用户大会 目 录 content ApsaraDB for GP的定位 ApsaraDB for GP的内核优化 未来的规划 2016Postgres中国用户大会 ApsaraDB for GP的定位 2016Postgres中国用户大会 ApsaraDB for GP的定位 GP的优势? 简单、高效解决大数据分析需求 MPP + 列存压缩 复杂SQL + 查询优化器 本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 ApsaraDB for GP的内核优化 2016Postgres中国用户大会 ApsaraDB for GP架构 ApsaraDB for GP 主节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 解决OOM问题 实例的OOM有时很频繁,同时OOM很难提前监控 我们的办法 利用外部脚本监控cgroup中的内存统计 发生内存水位较高时,将实例移入公共 cgroup;同时发出cancel query信号给内核 水位下降时移回实例的cgroup 2016Postgres中国用户大会 Linux Box CGroup backend backend backend CGroup backend0 码力 | 26 页 | 1.13 MB | 1 年前3
Greenplum 介绍性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 支持扩展(Extension)、自定义类型和函数、PXF 大大提高了产品的质量和客户的满意度。Greenplum 5.0 是开源之后发布的第一个稳定版本,大 约保持 1 个半月一个版本的发布速度。Greenplum 主干分支(master)开发非常活跃,众多社区 期待的特性稳健推进中,包括内核升级、新课题,处于业界领先地位。 Greenplum 社区邀请 Pivotal、阿里云、百度等社区人士共同定期举办各种技术研讨会、技术沙龙、 101 培训等活动,获得良好反馈。国内多所知名大学开设了0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案• 高效率 数据库管理系统(DBMS)的 规模/容量 11 需要采用一种新的方法 •“一切皆可商用”:商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘 过去Google™ 曾经用来实现信息搜索功能的技术, 现在被Greenplum用于数据仓库 现在的解决方案 12 通用并行数据流引擎可以通过本地方 式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术(由Google普及)的产品 • 采用新的编程模型,在商用硬件上并行处理和执行0 码力 | 45 页 | 2.07 MB | 1 年前3
共 19 条
- 1
- 2













