完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源 系统,支持服务 器、云计算、边缘计算、嵌入式等应用场景,支持多样性计算,致力于提供安全、稳定、易用的操作系统。通过为应用 提供确定性保障能力,支持 OT 领域应用及 OT 与 ICT 的融合。 欧拉开源社区通过开放的社区形式与全球的开发者共同构建一个开放、多元和架构包容的软件生态体系,孵化支持多种 处理器架构、覆盖数字设施全场景,推动企业数字基础设施软硬件、应用生态繁荣发展。 openEuler 覆盖全场景的创新平台 openEuler 已支持 X86、Arm、RISC-V 多处理器架构,未来还会扩展 PowerPC、SW64 等更多芯片架构支持,持续 完善多样化算力生态体验。 openEuler 社区面向场景化的 SIG 不断组建,推动 openEuler 应用边界从最初的服务器场景,逐步拓展到云计算、边 缘计算、嵌入式等更多场景。openEuler 正0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1编写:陈淼 - 13 - Master 的连接数是有限的,缺省值为 250 个,如果要大规模提升连接的可用数 量,可以配置使用 GP 自带的 pgbouncer 连接池,这对于一些应用场景会很有帮助, 例如 SAS 等软件连接 GP 时,由于这些软件自身无法严格限制连接数,pgbouncer 会 是一个有效的缓解连接数过大的方案,例如按照如下方式进行配置: $ cat pgbouncer 在 GP 推荐的硬件配置环境下,每个 Instance 需要对应数个 CPU Core 的资源 资源,具体的比例需要根据数据库的适用场景进行综合评估。例如在生产环境,每个 Instance 所在的主机配置了 2 个 16 Core 的 CPU,可根据不同的场景,配置 4 ~ 12 个不等的 Primary,这个数字的选择需要由富有经验的专业技术支持人员进行评估, 每个 Instance 所在主机配置的 作 为分布键,一般这个字段可能在其他某个表中具有主键特征,例如,客户 ID,例如会 员卡号,例如手机号码,例如身份证号码,等等,在选择分布键时,仅需要考虑大表与 大表之间的关联,任何涉及到小表关联的场景均不应作为选择分布键的考虑因素。 如果可以,尽可能只选择一个字段作为分布键,因为,只有当关联字段包含全部的 分布键时,分布键才对关联有帮助,除了空集(没有分布键的分布策略就是 Randomly0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 精粹文集报表工具的兼容性不如 MPP 数据库 SQL-On-Hadoop 不擅长于交互式(interactive)的 Ad-hoc 查询, 大多通过预关联的方式来规避这个问题;另外,在并发处理方面的能 力较弱。高并发场景下,需要控制计算请求的并发度,避免资源过载 导致的稳定性问题和性能下降问题。 3) 架构灵活性的对比 前面提到,为保证数据的高性能计算,MPP 数据库节点和数据之 间是紧耦合的,相反,Hadoop 性能和功能上都有很多待提升的空间。相比之下,MPP 数据在数 据处理上更加 SMART,要填平或缩小与 MPP 数据库之间的性能 和功能上的差距,Hadoop 还有很长的一段路要走。就目前来看, 我们认为这两个系统都有其适用的场景。 简单来说,如果你的数据需要频繁的被计算和统计、并且你希望具 有更好的 SQL 交互式支持和更快计算性能及复杂 SQL 语法的支持, 那么你应该选择 MPP 数据库,SQL-on-Hadoop 技术还没有足够 目中同时部署 MPP 数据库和 Hadoop,MPP 用于交互式高性能分析, Hadoop 用于数据 Staging、MPP 的数据备份或一些 ETL batch 的数据 清洗任务,两者相辅相成,在各自最擅长的场景中发挥其特性和优势。 Big Date2.indd 18 16-11-22 下午3:38 Greenplum 精粹文集 19 6. Greenplum 未来的发展之路 过去十年,IT0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 86/206 UDW⽀持⾏式存储、列式存储。 ⾏存储的应⽤场景: 表数据在载⼊后经常 update; 表数据经常 insert; 查询中选择⼤部分的列; 列存储的应⽤场景: 列存储⼀般适⽤于宽表(即字段⾮常多的表)。在使⽤列存储时,同⼀个字段的数据连续保存在⼀个物理⽂件中,所以列存储的压缩率⽐普通压缩表的压缩率要⾼很多,另外在多数字段中筛 率要⾼很多,另外在多数字段中筛 选其中⼏个字段中,需要扫描的数据量很⼩,扫描速度⽐较快。因此,列存储尤其适合在宽表中对部分字段进⾏筛选的场景。注意:列存储的表必须是追加表(Appendonly table)。 创建⼀个⾏式存储的表 CREATE TABLE rowTable( a int, b text ) WITH(appendonly=true, orientation=row) DISTRIBUTED compresslevel 取值从1到4,级别越⾼压缩⽐越⾼。RLE_TYPE适合于有⼤量重复的数据记录。 ZLIB 的压缩级别 compresslevel 取值从1到9,⼀般选择5已经⾜够了。 压缩表的应⽤场景:业务上对表进⾏更新和删除操作⽐较少,⽤ truncate+delete 就可以实现业务逻辑。不经常对表进⾏加字段或修改字段类型,对 ao 表加字段⽐普通表慢很多。 创建⼀个使⽤ ZLIB 压缩的⾏压缩表:0 码力 | 206 页 | 5.35 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum机器学习⼯具集和案例foo DISTRIBUTED BY (id); 2017.thegiac.com 2017.thegiac.com • 适合模型应用于数据子集的场景,并行执行效率非常高 • 如果节点间数据通讯,使用 适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 ● 机器器学习 ● 图形分析 历史回顾 2017.thegiac.com 金融 保险 医疗 汽车 制造 科研 政府机构 互联网 娱乐和媒体 零售 MADlib ⽤用户和场景 2017.thegiac.com 功能 Data Types and TransformaJons Array and Matrix Operations Matrix FactorizaDon0 码力 | 58 页 | 1.97 MB | 1 年前3
Brin Index主Greenplum 7中的理论与实现1% Brin Selection: 1-((B-1)/B)^(N*a) = 1- 0.000045 Confidential │ ©2021 VMware, Inc. Brin的使用场景 表非常大 数据有一定的分布特性 我们不想再index上付出太多存储空间 Confidential │ ©2021 VMware, Inc. Brin Scan select * from 15 Confidential │ ©2021 VMware, Inc. AoTable AppendOnly Table是一种紧凑的 数据格式,适用于较少进行 Update/Delete的场景 Tuple以紧凑的方式存储在变长 的Block中,所以Block在写入磁 盘后不能修改,只能向后追加新 的Block 为了实现并发Insert,每个AO表 逻辑上有128个AoSeg,每个事务0 码力 | 32 页 | 1.04 MB | 1 年前3
Pivotal Greenplum 5.0 - 开源MPP 数据库的不二之选列存储 行存储 1月 一年前 二年前 外部表 12月 11月 4月 3月 2月 5月 并行执行 企业级特性 Gemfire Chorus 使用场景 Text CLUSTERING REGRESSION CLASSIFICATION GRAPH GEOSPATIAL STRUCTURED QUERY LANGUAGE0 码力 | 18 页 | 913.39 KB | 1 年前3
Greenplum上云与优化backend backend CGroup Public CGroup Kill –USR2 2016Postgres中国用户大会 未来规划 满足客户需求! 列存优化 – 某些场景下提高数倍性能 CPU优化 – 对GP执行器的静态编译优化 流式备份 – 实时的物理备份 社区参与 – 成为社区积极的贡献者 2016Postgres中国用户大会 2016Postgres中国用户大会0 码力 | 26 页 | 1.13 MB | 1 年前3
Pivotal Greenplum 最佳实践分享基于gpfdist和外部表实现,比基于命名管道的gptransfer更稳定高效 两个集群之间必须互相网络连通 集群之间无需ssh互信 源端与目标端对象名称可不一致 条件源端过滤,降低带条件场景的网络压力 源端可以是视图,自劢识别是否使用快速模式 命令可部署在可在集群外执行 自劢识别低速模式,快速模式和全速模式 可指定并发数(同时多张表传输),可指定编码Encoding,解决特殊的乱码问题0 码力 | 41 页 | 1.42 MB | 1 年前3
共 10 条
- 1













