Greenplum Database 管理员指南 6.2.1......................................................................................... - 18 - 并行数据装载 ............................................................................................... Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 12 - 冗余与故障切换 并行数据装载 管理与监控 管理节点:Master Master 作为 GP 的访问入口,主要负责处理客户端连接的访问以及用户提交的 SQL 语句的解析、生成执行计划、优化执行计划等。Master 出现无法正常工作的故障时,自动激活 Standby 来接管 Master 的任务。下面的流程图,是编者实现的 Master 和 Standby 自动切换的逻辑流程图, 可以供读者参考,不过,编者不方便公开实现的代码。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 13 - Master 的连接数是有限的,缺省值为0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 精粹文集Big Date2.indd 1 16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 postgresql 的 contrib 中的一些常用模块 Greenplum 提 供了编译后的模块开箱即用,如:oraface、postgis、pgcrypt 等, 对于其它模块,用户可以自行将 contrib 下的代码与 Greenplum 的 include 头文件编译后,将动态 so 库文件部署到所有节点就可进行测 试使用了。有些模块还是非常好用的,例如:oraface,基本上集成了 Oracle 常用的函数到 “Postgresql+interconnect 并行调度 + 分布式事务两阶段提交”, Greenplum 还研发了非常多的高级数据分析管理功能和企业级管理模 块,如下这些功能都是 Postgresql 没有提供的: ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案个方面同时达到最满意的效果: 供程序员使用的MapReduce以 及供数据库管理使用的 SQL。” Monash Research 的Curt Monash 分析师褒奖 “ Greenplum正在通过新式技术来 推动并行数据库的发展,从而满足互 联网级企业的需求。” ZDNet的Dana Gardner Magic Quadrant 2007 (”远见者象限”) 最佳集群解决方案 Global 250 Fast “完全不共享”体系 Greenplum体系:并行数据流 21 • 通用并行数据流引擎可以通过本地方 式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet CIFISGR I 集团用户业务信息档案表 55分 4.31G 1167530 3 181秒 4.69 11820161 18x Greenplum计算能力测试结果 Query:合并字段测试、代码转换测试。GP系统计算耗时与Oracle系统比较如下: table typ e SQL 结果 Oracle 测试耗时 结果 GP测 试耗时 GP提升 倍数 FS_Z H_CD FISPA0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享2008 标准,OLAP,JDBC/ODBC 支持ACID、分布式事务 分布式数据库:线性扩展,支持上百物理节点 企业级数据库:全球大客户超过 1000+ 安装集群 百万行源代码,超过10年的全球研发投入 开源数据库(greenplum.org),良性生态系统 5 Pivotal Confidential–Inter nal Use Only 5 © Copyright 平台概况 产品特性 客户端访问和工具 多级容错机制 无共享大规模并行处理 先进的查询优化器 多态存储系统 客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 任务管理 服务 加载 & 数据联邦 高速数据加载 近实时数据加载 任意系统数据访问 存储 & Avro, Parquet 格式 6月 5月 10月 9月 8月 用户自定义数据存储格式 14 Pivotal Confidential–Inter nal Use Only 大规模并行数据加载 • 高速数据导入和导出 – 主节点不是瓶颈 – 10+ TB/小时/Rack – 线性扩展 • 低延迟 – 加载后立刻可用 – 不需要中间存储 – 不需要额外数据处理 • 导入/导出0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 介绍MADlib,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL 接口进行数据分析,大大降低了数据分 析的门槛;MADlib 内建于数据库内,使用 MPP 的优势,提高了分析的效率;MADlib 可 以在全量数据而不是抽样数据上进行分析,提高了精度。 ● 开放源代码且持续大力投入的平台: 2017 年 Pivotal 在 github 的开源贡献列表中全球排 名第四左右。0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum备份恢复浅析备份config文件、清理旧备份集以及VACCUM等 2017 年象行中国(杭州 站)第一期 gp_dump具体实现 2017 年象行中国(杭州 站)第一期 非并行数据恢复 如果恢复前后的数据库节点个数不同,则推荐使用非并行数据恢复,不过需要 保证备份集完整,而且都位于master所在的机器上,具体执行步骤如下 1.createdb database_name 2.psql database_name0 码力 | 17 页 | 1.29 MB | 1 年前3
Greenplum开源MPP数据库介绍Massively: q PB级的数据,单台主机无法处理 q 所以数据分布在多个主机上 q 高效、灵活的数据分布,和实际业务相关 Ø Parallel: q 数据并行处理计算 q 通过网络进行数据交换和汇总 Confidential │ ©2022 VMware, Inc. 7 执行架构 Interconnect Client Ø Coordinator: q 管理其它节点 q0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum介绍索引,greenplum支持 bitmap索引。 CREATE INDEX gender_bmp_idx ON employee USING bitmap (gender); 并行数据装载 Greenplum Database’s parallel file server(gpfdist),可 以达到1小时装载2T数据。 GP的工作负载的资源控制 GP提供了对工作负载和资源控制的功能。0 码力 | 38 页 | 655.38 KB | 1 年前3
Greenplum 编译安装和调试编译安装和调试 本文先介绍如何从源代码编译安装Greenplum、初始化Greenplum集群。然后介绍SQL在 Greenplum中的典型执行路径,最后介绍一些调试技巧。 源代码使用 Greenplum 开源社区最新源代码 6X_STABLE 分支: https://github.com/greenplum-db/gpdb,内核代码基于 PostgreSQL 9.4。目前(2019/04/23) 4。目前(2019/04/23) 主 干分支的代码基于 PostgreSQL 9.4。合并到 PostgreSQL 9.5 的工作也已经开始,有关最新工作 进展请参见:https://github.com/greenplum-db/gpdb-postgres-merge。 1. 从源代码编译 Greenplum Greenplum 目前官方支持 Redhat/Centos/SuSE/Ubuntu 有关更详细的信息请参考 README.macOS.md。 1.2 在 Redhat/Centos 系统上编译 本小节以 RHEL7 为例介绍如何编译Greenplum。 首先下载 Greenplum 源代码 $ git clone https://github.com/greenplum-db/gpdb Greenplum Database 编译和运行依赖于各种系统库和Python库。需要先安装这些依赖:0 码力 | 15 页 | 2.07 MB | 1 年前3
Greenplum机器学习⼯具集和案例强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017 数据编辑/整理理 之前 之后 性能提升 ● 181 ⾏行行代码 ● 75 分钟 ● 116 ⾏行行代码 ● 8 分钟 9.35x 特征编辑 ● 439 特征 ● 4,517 ⾏行行代码 ● 100 分钟 ● 934 特征 ● 1,438 ⾏行行代码 ● 30 分钟 多 495 个特征,快 3.33x 信息价值 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动 化 X 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客 户 商业影响 2017.thegiac.com 用户案例例2 基于API日志的⾦金金融产品⽤用户分析0 码力 | 58 页 | 1.97 MB | 1 年前3
共 17 条
- 1
- 2













