Greenplum 精粹文集报表工具的兼容性不如 MPP 数据库 SQL-On-Hadoop 不擅长于交互式(interactive)的 Ad-hoc 查询, 大多通过预关联的方式来规避这个问题;另外,在并发处理方面的能 力较弱。高并发场景下,需要控制计算请求的并发度,避免资源过载 导致的稳定性问题和性能下降问题。 3) 架构灵活性的对比 前面提到,为保证数据的高性能计算,MPP 数据库节点和数据之 间是紧耦合的,相反,Hadoop 性能和功能上都有很多待提升的空间。相比之下,MPP 数据在数 据处理上更加 SMART,要填平或缩小与 MPP 数据库之间的性能 和功能上的差距,Hadoop 还有很长的一段路要走。就目前来看, 我们认为这两个系统都有其适用的场景。 简单来说,如果你的数据需要频繁的被计算和统计、并且你希望具 有更好的 SQL 交互式支持和更快计算性能及复杂 SQL 语法的支持, 那么你应该选择 MPP 数据库,SQL-on-Hadoop 技术还没有足够 目中同时部署 MPP 数据库和 Hadoop,MPP 用于交互式高性能分析, Hadoop 用于数据 Staging、MPP 的数据备份或一些 ETL batch 的数据 清洗任务,两者相辅相成,在各自最擅长的场景中发挥其特性和优势。 Big Date2.indd 18 16-11-22 下午3:38 Greenplum 精粹文集 19 6. Greenplum 未来的发展之路 过去十年,IT0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1编写:陈淼 - 13 - Master 的连接数是有限的,缺省值为 250 个,如果要大规模提升连接的可用数 量,可以配置使用 GP 自带的 pgbouncer 连接池,这对于一些应用场景会很有帮助, 例如 SAS 等软件连接 GP 时,由于这些软件自身无法严格限制连接数,pgbouncer 会 是一个有效的缓解连接数过大的方案,例如按照如下方式进行配置: $ cat pgbouncer gp_session_role=utility' psql 在 GP 推荐的硬件配置环境下,每个 Instance 需要对应数个 CPU Core 的资源 资源,具体的比例需要根据数据库的适用场景进行综合评估。例如在生产环境,每个 Instance 所在的主机配置了 2 个 16 Core 的 CPU,可根据不同的场景,配置 4 ~ 12 个不等的 Primary,这个数字的选择需要由富有经验的专业技术支持人员进行评估, 作 为分布键,一般这个字段可能在其他某个表中具有主键特征,例如,客户 ID,例如会 员卡号,例如手机号码,例如身份证号码,等等,在选择分布键时,仅需要考虑大表与 大表之间的关联,任何涉及到小表关联的场景均不应作为选择分布键的考虑因素。 如果可以,尽可能只选择一个字段作为分布键,因为,只有当关联字段包含全部的 分布键时,分布键才对关联有帮助,除了空集(没有分布键的分布策略就是 Randomly0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商够保证存储所有可能的数值并且最合理地表达数据。 使⽤字符型数据类型保存字符串,⽇期或者⽇期时间戳类型保存⽇期类型,数值类型来保存数值。 使⽤ VARCHAR 或者 TEXT 来保存⽂本类数据。不推荐使⽤ CHAR 类型保存⽂本类型。VARCHAR 或 TEXT 类型对于数据末尾的空⽩字符将原样保存和处理,但是 CHAR 类型不能满⾜ 这个需求。请参考 CREATE TABLE 命令了解更多相关信息。 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 86/206 UDW⽀持⾏式存储、列式存储。 ⾏存储的应⽤场景: 表数据在载⼊后经常 update; 表数据经常 insert; 查询中选择⼤部分的列; 列存储的应⽤场景: 列存储⼀般适⽤于宽表(即字段⾮常多的表)。在使⽤列存储时,同⼀个字段的数据连续保存在⼀个物理⽂件中,所以列存储的压缩率⽐普通压缩表的压缩率要⾼很多,另外在多数字段中筛 率要⾼很多,另外在多数字段中筛 选其中⼏个字段中,需要扫描的数据量很⼩,扫描速度⽐较快。因此,列存储尤其适合在宽表中对部分字段进⾏筛选的场景。注意:列存储的表必须是追加表(Appendonly table)。 创建⼀个⾏式存储的表 CREATE TABLE rowTable( a int, b text ) WITH(appendonly=true, orientation=row) DISTRIBUTED0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum上云与优化支持所有PostgreSQL 9.0以下类型 支持11个PostgreSQL类型 横向扩容 支持 支持,需要停机(数分钟) 索引 支持(B-tree、Bitmap) 不支持 2016Postgres中国用户大会 推荐应用架构 应用服务器 ECS VPC ApsaraDB for GP 主节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 应用服务器 应用服务器 阿里云服务 阿里云CDP服务 backend backend CGroup Public CGroup Kill –USR2 2016Postgres中国用户大会 未来规划 满足客户需求! 列存优化 – 某些场景下提高数倍性能 CPU优化 – 对GP执行器的静态编译优化 流式备份 – 实时的物理备份 社区参与 – 成为社区积极的贡献者 2016Postgres中国用户大会 2016Postgres中国用户大会0 码力 | 26 页 | 1.13 MB | 1 年前3
Pivotal Greenplum 最佳实践分享1000000000, AGE大于10亿停止工作,等待vacuum执行 数据库对象数上限的最佳实践 GPDB内部的对象:所有的表(包括分区表)、索引、视图等都称为对象 GPDB最佳实践所推荐的对象管理要求是:一个数据库内对象不要超过10 0000个 最佳实践是出于对系统性能和稳定性因素建议对pg_class 所维护的对象数进行约束 减少对象数的方法: – 提高分区粒度 基于gpfdist和外部表实现,比基于命名管道的gptransfer更稳定高效 两个集群之间必须互相网络连通 集群之间无需ssh互信 源端与目标端对象名称可不一致 条件源端过滤,降低带条件场景的网络压力 源端可以是视图,自劢识别是否使用快速模式 命令可部署在可在集群外执行 自劢识别低速模式,快速模式和全速模式 可指定并发数(同时多张表传输),可指定编码Encoding,解决特殊的乱码问题0 码力 | 41 页 | 1.42 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源 系统,支持服务 器、云计算、边缘计算、嵌入式等应用场景,支持多样性计算,致力于提供安全、稳定、易用的操作系统。通过为应用 提供确定性保障能力,支持 OT 领域应用及 OT 与 ICT 的融合。 欧拉开源社区通过开放的社区形式与全球的开发者共同构建一个开放、多元和架构包容的软件生态体系,孵化支持多种 处理器架构、覆盖数字设施全场景,推动企业数字基础设施软硬件、应用生态繁荣发展。 openEuler 覆盖全场景的创新平台 openEuler 已支持 X86、Arm、RISC-V 多处理器架构,未来还会扩展 PowerPC、SW64 等更多芯片架构支持,持续 完善多样化算力生态体验。 openEuler 社区面向场景化的 SIG 不断组建,推动 openEuler 应用边界从最初的服务器场景,逐步拓展到云计算、边 缘计算、嵌入式等更多场景。openEuler 正0 码力 | 17 页 | 2.04 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum机器学习⼯具集和案例foo DISTRIBUTED BY (id); 2017.thegiac.com 2017.thegiac.com • 适合模型应用于数据子集的场景,并行执行效率非常高 • 如果节点间数据通讯,使用 适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 ● 机器器学习 ● 图形分析 历史回顾 2017.thegiac.com 金融 保险 医疗 汽车 制造 科研 政府机构 互联网 娱乐和媒体 零售 MADlib ⽤用户和场景 2017.thegiac.com 功能 Data Types and TransformaJons Array and Matrix Operations Matrix FactorizaDon0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum开源MPP数据库介绍VMware, Inc. 19 GPCC Greenplum Command Center Ø Web UI 监控和管理 Ø 实时性能监控 Ø 可视化计划 Ø 基于规则的任务管理 Ø 向客户推荐性能优化操作 Ø 报警和通知 Confidential │ ©2022 VMware, Inc. 20 Greenplum Streaming Server Ø ETL工具 (10+TB/hour)0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum备份恢复浅析备份config文件、清理旧备份集以及VACCUM等 2017 年象行中国(杭州 站)第一期 gp_dump具体实现 2017 年象行中国(杭州 站)第一期 非并行数据恢复 如果恢复前后的数据库节点个数不同,则推荐使用非并行数据恢复,不过需要 保证备份集完整,而且都位于master所在的机器上,具体执行步骤如下 1.createdb database_name 2.psql database_name -f0 码力 | 17 页 | 1.29 MB | 1 年前3
共 12 条
- 1
- 2













