Greenplum Database 管理员指南 6.2.1.................. - 295 - 第十四章:开启高可用 .......................................................................................................... - 297 - GP 数据库高可用概述 ................................. ............................................................................. - 324 - 恢复 Master 的高可用 ......................................................................................... - 325 - ................................... - 346 - 可用磁盘空间充足的系统 ...................................................................................... - 347 - 可用磁盘空间不足的系统 ...................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum介绍Greenplum介绍 唐成 - 2011.02.17 汇 报 提 纲 Greenplum VS hadoop Greenplum架构 Greenplum的高可用方案 GP分布式数据库功能介绍 理解GP的查询处理 Greenplum VS hadoop 比较项 Greenplum Hadoop+hive 软件性质 商业软件 稳定性 有较多的bug。 比较稳定。 Greenplum架构图 Segment Host Segment Host Segment Host Segment Host 高 速 以 太 网 交 换 机 Master Host Lan Client Host Greenplum架构: Master介绍 Master服务器是外面用户访问greenplum的入口。用户 nt。 Greenplum中的高可用方案 Segment的mirror 当配置了segment mirror,当segment primary不能写 的时候,greenplum会自动切换到mirror。当master不 能连接到一个segment instance时,会把这个instance 标记为invalid。 Greenplum中的高可用方案 默认情况下,greenplum的失败操作模式是“read-0 码力 | 38 页 | 655.38 KB | 1 年前3
Greenplum 精粹文集模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 来 了, 在 X86 集 群 上 实 现 自 动 的 并 行 计 算, 无 论 是 后 来 的 MapReduce google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 hash join 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 计算的功能也无能为力,就其因估计还是受到 mysql 在这方面限制。 3) 扩展性方面,Postgresql 比 mysql 也要出色许多,Postgres0 码力 | 64 页 | 2.73 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum15%-17%,值得一提的是此论文主要由中国研发团队完成,也说明了中国研发团队实力处于世界一流水平。在论文 中 Greenplum 团队提出一种全新的全局死锁检测器来减少独占锁的使用,减少独占锁的使用可以极大的提高数据库 在高并发状态下的性能,这项技术已经在 Greenplum6 实现。 在 Greenplum6 和即将发布的 Greenplum 7, 带来了多项产品改进和新增功能,这些功能提升了性能,增加了系统可 Coordinator(Master),如果 Coordinator(Master)出现故障, 将自动把备用节点进行替换,把这一流程自动化,减少人工的干预,这一功能不但将解决现有用户的使用痛点,同时 也大大增加了系统高可用性,避免手工操作,极大方便了系统运维,而这对于运行关键业务应用十分重要。 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum Rcpp、RcppEigen、RobustRankAggreg 等 R 语言算法库和程序包。 此外,Greenplum 还支持最新版 Apache MADlib(可用 SQL 进行机器学习、深度学习和图分析),它支持高并行 和基于 GPU 的深度学习模型训练,内置于集群硬件中的 GPU,能帮助 Greenplum 6 的用户获得超过 CPU 2 个数量 级的性能加速,尤其对于可预测的0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 分布式数据库内核揭秘Coordinator 是整个数据库的入口,客户端只会连接 至 Coordinator 节点,并执行相关的查询操作 l Standby 节点为 Coordinator 提供高可用支持 l Mirror 则为 Segment 提供高可用支持 7 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据存储与多态存储 Hash/Randomly/Replicated0 码力 | 31 页 | 3.95 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台可消除平台 / 供应商制约。用户可通过不同供应商获得针对 Greenplum 的服务和支持。 • Greenplum Database 在开发时采用的是以社区 / 客户为焦点的开发模式。客户可通过多种开放可用的方法对总 体产品方向产生影响,而这又会加快产品创新。 客户能够在群集中的一组初始服务器上部署 Pivotal Greenplum,并能在数据存储和用户需求增加时扩充配置中的服务器数 量,且无需卸 rpart、sandwich、scales、stringi、stringr、survival、tibble、tseries 和 zoo。 此外,Greenplum 5 还支持最新版 Apache MADlib(可用 SQL 进行机器学习和图分析),支持在 Apache Solr 数据库内实 施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接受 来自支持的 和内存管理方面。资 源组一经定义,便会将所有用户活动纳入管理范围,包括超级用户。某个超级用户执行的所有语句都会路由至一个默认资 源组,管理员可以根据需要调整该资源组,增加或减少其系统资源。如果队列中没有可用于某个查询的空位,或者内存不 足以运行该查询,它会自动排队,直到有能够成功执行的资源为止。 1. Marshall Presser,Data Warehousing with Greenplum:Open0 码力 | 9 页 | 690.33 KB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考“过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 Ø事务大,频率相对小,并发低 • 未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 分区表的分区键性能不佳 • 加载易出现问题 Ø 文件加载出现特殊字符 Ø 数据校验标准问题 35 Greenplum开发规范 业务库表设计规范 • GP中表的范围 Ø 最大时间为年表 Ø 数据量小,可用单表 • 多种表类型 Ø 堆表 (选好常用列作为三列键) Ø 分区表 (按照 yyyymmdd 分区,建议都添加 datenum int8) Ø append表 Ø 列存储表 Ø 多种表类型结合 所有都用小写字母加下划线的方式 Ø 按照命名规则,做到见名知义 37 Greenplum开发规范 Greenplum使用规范 • 平时使用规范 Ø避免高频率的insert、update操作 Ø避免频繁执行高内存消耗的会话 Ø避免出现死锁 Ø可以在适当的时候执行 vaccum 操作 Ø避免直接在Greenplum执行消耗session会话的操作 Ø尽量不创建索引 • 上线与调度规范 Ø上线的程序,必须要经过测试,才可以生产使用0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 介绍, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 支持扩展(Extension)、自定义类型和函数、PXF 和外部表技术。可以使用多种语言实现用户自定义函数和聚集,包括 PL/Python、PL/R、 1 个 月左右,现在只需要十几个小时。 ● 具备企业级稳定性的平台:Greenplum 经过十多年发展,有大量活跃客户,大量数百节点 集群为全球 2000 强企业生产系统提供服务,稳定性非常高。 ● 具备成熟生态系统的平台:Greenplum 生态非常完善,有大量的合作伙伴。 发展历程 Greenplum 公司成立于 2003 年,2008 年发布 Greenplum0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum开源MPP数据库介绍存储数据,share-nothing q 产生计算进程 Ø Libpq:控制信道 Ø Interconnect: 数据交换信道 Confidential │ ©2022 VMware, Inc. 8 Greenplum的高可用 Ø 数据存两份,Coordinator有standby Ø 自动同步数据 (WAL replication) Ø 自动灾难恢复 (FTS,主备切换) Confidential │ ©20220 码力 | 23 页 | 4.55 MB | 1 年前3
Pivotal HVR meetup 20190816创建并装载目标表 • 用于实时复制的初始化 • 也可以单独使用 • 可以被定义为任务,定时调度执行 异构平台环境下初始化同步 8 • 非侵入式技术对生产没有影响 • 基于日志捕获技术的实时性非常高 • 支持从过去的某一指定时间开始捕获 • 条件过滤 • 支持触发器捕获技术作为补充 基于数据库事务日志的变化数据捕获 9 • 避免人为错误 • 在迁移结束前校验数据 • 支持异构 异构平台间数据校验域修复 对于增量备份可以支持准实时的同步也可以支持延时同步 ➢ 同步软件不会对源库造成负载上升的问题 ➢ 同步中断后能够记录中断点,在下次同步时可以自动从中断点开始继续同步数据 ➢ 能够提供对同步组件的监控 ➢ 操作简单,运维效率高 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 15 Compare Products 参考:https://mp.weixin.qq 支持全量同步,但增量同步延时,数据量越大,延时更久。 ➢ JDBC驱动强依赖。 ➢ 版本更新不及时,对GreenPlum新版本无法持续性支持,不稳定。 ➢ 需开发人员支持,二次开发或脚本支持,开发时间成本和人力成本高。 ➢ 支持数据库版本少,无法支持跨多版本的Oracle、MySQL、PostgresSQL、SQL Server等 ➢ 断点续传不支持 ➢ 大量数据同步的情况下,同步组件效率低 参考:https://mp0 码力 | 31 页 | 2.19 MB | 1 年前3
共 17 条
- 1
- 2













