完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum................................................................................ 12 集成分析:改进后的全新分析接口 .................................................................................................. 白皮书 4 白皮书 | 4 关于本白皮书 近日,Greenplum 社区和欧拉开源社区深化合作,在欧拉开源操作系统(openEuler, 简称“欧拉”)编译测试了高级分 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原则,用全新的HTAP核心设计满足实时处理业务需求。在此也为所有为Greenplum on openEuler 成功测试运行所做努力贡献的人员表示感谢! 摘要 Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在不同操作系统、 不同芯片的环境,适合本地部署0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 精粹文集join(据说未来会支持 hash join),而多个大表关联分析时 hash join 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 计算的功能也无能为力,就其因估计还是受到 mysql 在这方面限制。 3) Python、C、Perl、TCL、 PLSQL 等等语言来扩展功能,在后续章节中,我将展现这种扩展 是如何的方便,另外,开发新的功能模块、新的数据类型、新的索 引类型等等非常方便,只要按照 API 接口开发,无需对 PG 重新编译。 PG 中 contrib 目录下的各个第三方模块,在 GP 中的 postgis 空间 数据库、R、Madlib、pgcrypto 各类加密算法、gptext 全文检索都 头文件编译后,将动态 so 库文件部署到所有节点就可进行测 试使用了。有些模块还是非常好用的,例如:oraface,基本上集成了 Oracle 常用的函数到 Greenplum 中,曾经在一次 PoC 测试中,用户 提供的 22 条 Oracle SQL 语句,不做任何改动就能运行在 Greenplum 上。 最 后, 需 要 强 调 的 是:Greenplum 绝 不 仅 仅0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 Greenplum 的 成长,见证了 ................................................................................... - 41 - DB 应用程序接口 .................................................................................................. 性能和网络性能 ............................................................................... - 353 - 新旧主机一起做性能测试 ...................................................................................... - 354 - 初始化新0 码力 | 416 页 | 6.08 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 —— dbsync平台 7 数据仓库体系架构 数据架构示意图 : 用户认证权限 Ø pg_hba.conf : 实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 • 账号类型划分 Ø 管理账号 Ø 开发账号 Ø 调度账号 Ø 业务账号 Ø 测试账号 • 账号名称限定 Ø 所有都用小写字母加下划线的方式 Ø 按照命名规则,做到见名知义 37 Greenplum开发规范 Greenplum使用规范 • 平时使用规范 Ø避免高频率的insert、update操作 Ø避免频繁执行高内存消耗的会话 Ø避免出现死锁 Ø可以在适当的时候执行 vaccum 操作 Ø避免直接在Greenplum执行消耗session会话的操作 Ø尽量不创建索引 • 上线与调度规范 Ø上线的程序,必须要经过测试,才可以生产使用 Ø调度程序需考虑每个任务的前后关系,时间富裕 Ø避免因为过于追求并行度,对多个任务造成相互影响 38 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 介绍流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL 接口进行数据分析,大大降低了数据分 析的门槛;MADlib 内建于数据库内,使用 MPP 的优势,提高了分析的效率;MADlib 可 以在全量数据而不是抽样数据上进行分析,提高了精度。 ● 开放源代码且持续大力投入的平台: 区贡献者包括阿里云、中移动等大公司,也有诸多中小公司和数据库爱好者。 开源之后,Greenplum 把敏捷软件开发方法学引入到分布式数据库的开发中,通过使用站立会议、 回顾会议、结对编程、持续集成、测试驱动、单周迭代等敏捷方法建立了高效的快速反馈系统, 大大提高了产品的质量和客户的满意度。Greenplum 5.0 是开源之后发布的第一个稳定版本,大 约保持 1 个半月一个版本的发布速度。Greenplum0 码力 | 3 页 | 220.42 KB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台.................................................................................. 4 集成分析:改进后的全新分析接口 .................................................................................................. Spring Cloud Data Flow ETL 本地存储 HDFSS 云对象 存储 GemFire Spark 其他 RDBMSes 多结构数据 PIVOTAL GREENPLUM 平台 原生接口 分析应用 用户 JDBC、OBBC Teradata SQL Apache MADlib Python. R、 Java、Perl、C Apache SOLR PostGIS ANSI SQL 白皮书 6 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 集成分析:改进后的全新分析接口 一直以来,客户都能在 Pivotal Greenplum 中做高级分析,无论是提供将应用逻辑向下推送至数据所在位置的方法,执行 分析功能,还是以大规模并行方式构建数据模型,都可以实现。Greenplum0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案随着数据量的不断增长,应用在现有平台上的运行效率极度恶化。 – 实际运行采样,9月份月度数据处理时,该应用耗时42小时;经过两个月 的数据累加,到11月份月度数据处理时,该应用耗时达到65小时。 • 测试运行平台 – 服务器平台:SUN X4500两台,每台含2路dual-core CPU 共4core, 16GB;SUN X4200一台,2路dual-core CPU 共4core,8GB – Beta – 应用软件:SQL语句 • 数据导入测试 – A - 67858566 rows – B - 80088742 rows – C - 372844366 rows – D - 75042462 rows – E - 2521897 rows 结论:超过6亿条历史数据导入,用时少于1.5小时,性能非常卓越。 • 全表扫描测试 – DWA测试环境:针对表C(372844366 rows)进行全表扫描,历时少于1 分钟。 – 客户投产环境:针对表C的一个子表(记录数约为C表的1/10) 进行全表扫 描,历时超过20分钟。 结论:如果采用DWA替代现有环境,获得超过120倍的性能提升。 • 真实应用测试 – DWA测试结果:完成应用的全过程仅耗时48分钟。 – 客户投产环境:客户11月份月度处理时,完成本项任务需要65小时。 结论:如果采用DWA替代现有环境,获得超过80倍的性能提升。 案例分享:阿里巴巴0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商/usr/lib/libodbcpsqlS.so Driver64 = /usr/lib64/psqlodbc.so Setup64 = /usr/lib64/libodbcpsqlS.so FileUsage = 1 3. 测试ODBC驱动是否安装成功 # odbcinst -q -d [PostgreSQL] 如果出现以上输出,代表在这台机器上已成功安装了PostgreSQL的ODBC驱动。 4. 编辑/etc/odbc Port Protocol = 8.3 ReadOnly = No RowVersioning = NoShow SystemTables = No ConnSettings = 5. 测试连接 # isql testdb 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 22/206 如出现以上内容,则表⽰psqlodbc配置成功。 /usr/lib64/libodbcpsqlS.so FileUsage = 1 访问UDW数据仓库 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 56/206 3. 测试ODBC驱动是否安装成功 # odbcinst -q -d [PostgreSQL] 如果出现以上输出,代表在这台机器上已成功安装了PostgreSQL的ODBC驱动。 4. 编辑/etc/odbc0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台避免显式只读事务(BEGIN-SELECT-END)的两阶段提交 (开发中) ■ fastpath锁(PostgreSQL合并) 32 Pivotal Confidential–Internal Use Only TPC-B基准测试:环境 基于谷歌云平台(Google Cloud Platform,简称GCP),为5个虚拟主机的集群,包含一 个master主机和四个segment主机,master和segment虚拟主机的配置信息如下 TPC-B基准测试:SELECT 表‘SALES’ 表‘SALES’ ■ 3.5倍的TPS提升 ■ master CPU使用率大幅提高 ■ TPS随着master CPU核数增加同 步提高 ■ 22万 TPS (192核单机部署 ,master+18 segments) 34 Pivotal Confidential–Internal Use Only TPC-B基准测试:UPDATE 70倍的TPS提升 35 Pivotal Confidential–Internal Use Only TPC-B基准测试:INSERT ■ 峰值TPS提升3.6倍 36 Pivotal Confidential–Internal Use Only TPC-B基准测试:多语句 表‘SALES’ 表‘SALES’ ■ 峰值TPS提升60倍 BEGIN; UPDATE pgbench_accounts0 码力 | 52 页 | 4.48 MB | 1 年前3
Brin Index主Greenplum 7中的理论与实现Confidential │ ©2021 VMware, Inc. 目录 Brin Index On Heap AppendOnly Table Brin在AppendOnly Table上的实现 性能测试 5 Confidential │ ©2021 VMware, Inc. Block Range Index 存储数据块中元组字段的最 大最小值,用于过滤不符合条 件的数据块 1 3 Confidential │ ©2021 VMware, Inc. 目录 Brin Index AppendOnly Table Brin在AppendOnly Table上的实现 性能测试 15 Confidential │ ©2021 VMware, Inc. AoTable AppendOnly Table是一种紧凑的 数据格式,适用于较少进行 Update/Delete的场景 Confidential │ ©2021 VMware, Inc. 目录 Brin Index AppendOnly Table Brin在AppendOnly Table上的实现 性能测试 19 Confidential │ ©2021 VMware, Inc. Revmap With AO Confidential │ ©2021 VMware, Inc. Add0 码力 | 32 页 | 1.04 MB | 1 年前3
共 13 条
- 1
- 2













