Greenplum Database 管理员指南 6.2.1的一台独立的机器设备 Instance : GP 的计算实例,很多时候也叫 Segment Primary : GP 的主计算实例 Mirror : GP 的镜像计算实例 MPP : 大规模并行处理 算子 : 执行计划中的运算操作 背景简介 多年前,编者翻译了 GP4.2.2 的 AdminGuide,如今,GP 已经历经了无数个版 本更新和迭代,编者也有了更多的感悟,放眼 ............................................................................... - 284 - 初始化 GP 数据库集群 .................................................................................................. ................................................................................ - 320 - 无 Mirror 集群恢复 ............................................................................................. - 3220 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 精粹文集计算模式来支持,这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 来 了, 在 X86 集 群 上 实 现 自 动 的 并 行 计 算, 无 论 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多 个 Postgresql 实例的高效协同和并行计算,Interconnect 承载了并行 查询计划生产和 Dispatch 分发(QD)、协调节点上 QE 执行器的并 行工作、负责数据分布、Pipeline 多任务。 在 Greenplum 开源以前,据说一些厂商也有开发 MPP 数据库的打算, 其中最难的部分就是在 Interconnect 上遇到了障碍,可见这项技术的 关键性。 Greenplum 集群架构 Big Date2.indd 3 16-11-22 下午3:38 4 2. Greenplum 为什么选择 Postgreeql 做轮子 说到这,也许有同学会问,为什么 Greenplum0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商hdfs 外部表迁移数据 外部表迁移数据 1. 在原 greenplum 集群中创建 hdfs pxf 可写外部表 2. 将原 greenplum 集群表数据写⼊ hdfs 3. 在⽬的 greenplum 集群中创建 hdfs pxf 可读表 4. 从 hdfs 外部表中读取数据并写⼊⽬的 greenplum 集群 FAQs 创建好数据仓库之后怎么连接到UDW? UDW⽀持从mysql导⼊数据吗? UDW Copyright © 2012-2021 UCloud 优刻得 6/206 产品架构 产品架构 数据仓库(UCloud Data Warehouse)是⼤规模并⾏处理数据仓库产品,基于开源的Greenplum开发的⼤规模并发、完全托管的PB级数据仓库服务。UDW可以通过SQL让数据分析更简 单、⾼效,为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务分析能⼒。⽀持MADlib扩展,客⼾ 计算密集型 dc1.8xlarge 28核 168G 3800G(SSD) 选择数据仓库类型:Greenplum 是 EMC 开源的数据仓库产品、Udpg 是基于 PostgreSQL 开发的⼤规模并⾏、完全托管的 PB 级数据仓库服务。 选择节点个数:UDW 是分布式架构、所有节点数据都是双机热备,实际可⽤总容量略⼩于节点个数*节点磁盘⼤⼩/2,请根据实际数据⼤⼩选择合适的节点。 3.设置数据仓库信息0 码力 | 206 页 | 5.35 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum............................................................................................. 10 集群在线扩容 .............................................................................................. ................................................................................... 10 Greenplum 集群多站点复制 ............................................................................................. 安全容器方案:iSulad+shimv2+StratoVirt 安全容器方案,相比传统 docker+qemu 方案,底噪和启动时间 优化 40%。 • 双平面部署工具 eqqo:ARM/X86 双平面混合集群 0S 高效一键式安装,百节点部署时间<15min。 3. 探索场景创新 边缘计算:发布面向边缘计算场景的版本 openEuler21.09Edae.集成 KubeEdae+边云协同框架,具备边云应用统一管0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享数据库:ANSI SQL 2008 标准,OLAP,JDBC/ODBC 支持ACID、分布式事务 分布式数据库:线性扩展,支持上百物理节点 企业级数据库:全球大客户超过 1000+ 安装集群 百万行源代码,超过10年的全球研发投入 开源数据库(greenplum.org),良性生态系统 5 Pivotal Confidential–Inter nal Use Only 5 reserved. Greenplum 架构 6 Pivotal Confidential–Inter nal Use Only 平台概况 产品特性 客户端访问和工具 多级容错机制 无共享大规模并行处理 先进的查询优化器 多态存储系统 客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather Center GP Workload Manager 7 Pivotal Confidential–Inter nal Use Only MPP(大规模并行处理)无共享体系架构 从主节点 … 主节点 SQL • 主节点和从主节点,主节点负责协调整个集群 • 一个数据节点可以配置多个节点实例(Segment Instances) • 节点实例并行处理查询(SQL) • 数据节点有自己的CPU、磁盘和0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案2010/4/8 官方网站: www.greenplum.com www.greenplum-china.com Greenplum:简介 Greenplum数据引擎软件为新一代数 据仓库所需的大规模数据和复杂查询功 能所设计 3 推动数据依赖型企业的发展 全球各地的一些Greenplum客户 4 亚太地区 欧洲、中东、非洲 北美 中国的客户 5 金融 交通 互联网 其它 Teradata 安全度 • 查询、报告、分析的数量 • 数据的高度多样性 • 大量定制数据 • 监管要求 商务智能/数据仓库发展趋势 一切都在增长! 数据仓库工作量:数据膨胀 面临的新难题是如何处理大规模数据 过去的10年 现在 HPC 企业 SME 万亿字节 千兆字节 兆字节 千万亿字节 万亿字节 千兆字节 行业商务智能解决方案的实例 政府 电信 金融服务 公民服务 国家安全 10 1995 2000 2005 2010 新一代数据库的要求 传统数据库的要求 今天的数据库供应商 网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率 数据库管理系统(DBMS)的 规模/容量 11 需要采用一种新的方法 •“一切皆可商用”:商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum介绍Greenplum VS hadoop 比较项 Greenplum Hadoop+hive 软件性质 商业软件 开源 集群规模 一般在100台以下 可以到上万台。 性能 在100台以下时,性能 比hadoop好。 单个SQL可以做到秒级 别 集群规模越大,总体性 能越好。 单个SQL最少也有数十 秒。 SQL的支持程度 支持完善,几乎所有 PostgreSQL支持的SQL, 器上。而 Greenplum4.0版本增加了功能,当备份节点坏的时 候,主节点可以把增量数据记下来,这样当备份节点的 主机恢复时,只需要恢复增量数据就可以了。 要让原先已offline的节点再加入集群中,需要重启集 群。 Greenplum中的高可用方案 对于Greenplum 3.X的版本,segment 的primary与 mirror之间是做的逻辑同步,mirror端的数据库实际上0 码力 | 38 页 | 655.38 KB | 1 年前3
Greenplum 分布式数据库内核揭秘Greenplum 集群化概述 - 分布式数据存储与多态存储 - 分布式查询优化器与执行器 - Greenplum 中文社区 3 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据库简介 Features Confidential │ ©2021 VMware, Inc. 4 Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台,具有良好的弹性 ©2021 VMware, Inc. Greenplum 集群化概述 Coordinator/Segment, Primary/Mirror Confidential │ ©2021 VMware, Inc. 6 Greenplum 集群化概述 数据库的组成 l Coordinator/Segment 架构 l Greenplum 集群通常由一个 Coordinator 节点、一 个 Standby 数据存储分布化是分布式数据库要解决的第一个问题。 通过将海量数据分散到多个节点上,一方面大大降低了单个节点处理的数据量,另一方面也为处理 并行化奠定了基础,两者结合起来可以极大的提高系统的性能。譬如在 100 个节点的集群上,每 个节点仅保存总数据量的 1/100,100 个节点同时并行处理,性能会是单个配置更强节点的几十倍。 Greenplum 不仅仅实现了基本的分布式数据存储,还提供了更高级更灵活的特性,譬如多种分布0 码力 | 31 页 | 3.95 MB | 1 年前3
Pivotal Greenplum 最佳实践分享Hash Join – Nestloop join(非等值关联) – Merge join(排序关联) 大多数关联都是Hash关联,关联是小表被Hash到内存中,如果涉及数据表规模较大,内存不足时, GPDB将会生成临时文件,这些档会放在segment的实例目录下pgsql_tmp目录下,GPDB建议保留 30%左右的空间作为临时空间 避免小表Left Join大表 如果过多的侵占到OS的内存,可能导致Instance down – 系统运行缓慢 – 其它异常 OOM-解决办法 优化查询以减少内存的消耗 在资源队列中降低查询的并发数 降低GP集群中单节点的Segment Instance数量 增加机器的内存 检查gp_vmem_protect_limit 参数, 确保其不要超过安全的最大值 在会话层面降低statement_mem PGOPTIONS='-c gp_session_role=utility' psql dbname –p xxxx – 可以通过这个命令登录实例,一般用于检测单个实例是否运行正常,还有就是用于在集群发生不一致时(只有在非常特殊的情况下才 有可能发生,如表不一致等),进行表维护 Admin常用命令 查看数据库、表占用空间 – select pg_size_pretty(pg0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台VS 分布式 简单易用 VS 结构化 半结构非结构化 VS 事务型 分析型 VS MPP - massively parallel processing - 大规模并行处理 master standby primary segment mirror segment 6 Pivotal Confidential–Internal Use Only 数据分布: Transition 函数 操作一小批数据并更新 模型状态 1 Merge 函数 2 Final函数 3 Segment 1 19 Madlib: PageRank性能 Greenplum集群: ● 1 master ● 4*6 segment 50亿条链接 (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log scale (100s) content below this line Source and Footnotes Guideline . PROD Space usage (compressed) 1. 24 个生产集群 2. 2个选项: 20个节点或 40个节点 3. 600+ 服务器, 13k+ 核, 81PB存储(增长 中) 4. 2.5PB 或 25PB 原始数据 按10x压缩率 1 2 30 码力 | 52 页 | 4.48 MB | 1 年前3
共 23 条
- 1
- 2
- 3













