Greenplum 新一代数据管理和数据分析解决方案
1 新一代数据管理和数据分析 解决方案 关于Greenplum公司 • Greenplum是一家数据库软件公司,在数据处理和 BI/DW领域,提供容量 最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥,加利福尼亚州,美国,成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站: www.greenplum 随着数据量的不断增长,应用在现有平台上的运行效率极度恶化。 – 实际运行采样,9月份月度数据处理时,该应用耗时42小时;经过两个月 的数据累加,到11月份月度数据处理时,该应用耗时达到65小时。 • 测试运行平台 – 服务器平台:SUN X4500两台,每台含2路dual-core CPU 共4core, 16GB;SUN X4200一台,2路dual-core CPU 共4core,8GB – Beta – 应用软件:SQL语句 • 数据导入测试 – A - 67858566 rows – B - 80088742 rows – C - 372844366 rows – D - 75042462 rows – E - 2521897 rows 结论:超过6亿条历史数据导入,用时少于1.5小时,性能非常卓越。 • 全表扫描测试 – DWA测试环境:针对表C(372844366 rows)进行全表扫描,历时少于10 码力 | 45 页 | 2.07 MB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
白皮书 4 白皮书 | 4 关于本白皮书 近日,Greenplum 社区和欧拉开源社区深化合作,在欧拉开源操作系统(openEuler, 简称“欧拉”)编译测试了高级分 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原则,用全新的HTAP核心设计满足实时处理业务需求。在此也为所有为Greenplum on openEuler 成功测试运行所做努力贡献的人员表示感谢! 摘要 Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在不同操作系统、 不同芯片的环境,适合本地部署 Hybrid Database for Transactional and Analytical Workloads》1成功入选 SIGMOD 的收录论文,ACM SIGMOD 数据管理国际会议是由美国计算机协会 (ACM) 数据管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地位的国际性学术会议,SIGMOD 和另外 两大数据库会议 VLDB、ICDE 构成了数据库领域的三个顶级会议,其论文录取率是很低的,平均录取率大约仅为0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum 精粹文集
join(据说未来会支持 hash join),而多个大表关联分析时 hash join 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 计算的功能也无能为力,就其因估计还是受到 mysql 在这方面限制。 3) 头文件编译后,将动态 so 库文件部署到所有节点就可进行测 试使用了。有些模块还是非常好用的,例如:oraface,基本上集成了 Oracle 常用的函数到 Greenplum 中,曾经在一次 PoC 测试中,用户 提供的 22 条 Oracle SQL 语句,不做任何改动就能运行在 Greenplum 上。 最 后, 需 要 强 调 的 是:Greenplum 绝 不 仅 仅 记忆较深的一次 PoC 公开测试中,有厂商要求在测试中关闭 CPU 超 线程,估计和这个原因有关(因为没有办法利用到多个 CPU core 的 计算能力,还不如关掉超线程以提高单 core 的能力),但即使是这样, 在那个测试中,测试性能也大幅低于 Greenplum(那个测试中,各厂 商基于客户提供的完全相同的硬件环境,Greenplum 是唯一一家完成 所有测试的,特别在混合负载测试中,Greenplum0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 Greenplum 的 成长,见证了 性能和网络性能 ............................................................................... - 353 - 新旧主机一起做性能测试 ...................................................................................... - 354 - 初始化新 Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 25 - 果系统中一个 SUPERUSER 都没了,可能就悲剧了(编者测试过,很悲剧)。 为每个登录的 User 分配不同的 Role。出于登录和审计的需要,每个被允许登录 到 GP 的使用者都应该分配一个属于自己的 Role。对于应用程序(APP)或者 Web0 码力 | 416 页 | 6.08 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
分析孤岛。此外, 它通过有助于加快创新的集成环境,为数据科学家和业务分析师提供多种分析功能。通过新型开发实践、持续交付和开源 软件分发方法,Pivotal Greenplum 5 带来了最新一代的数据管理和数据分析功能,这有助于其实现长远成功。 关注 Pivotal 官方微信号 ® 关 注 Pivotal 官 方 微 博 pivotal.io/cn 售前咨询:400-135-89000 码力 | 9 页 | 690.33 KB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
/usr/lib/libodbcpsqlS.so Driver64 = /usr/lib64/psqlodbc.so Setup64 = /usr/lib64/libodbcpsqlS.so FileUsage = 1 3. 测试ODBC驱动是否安装成功 # odbcinst -q -d [PostgreSQL] 如果出现以上输出,代表在这台机器上已成功安装了PostgreSQL的ODBC驱动。 4. 编辑/etc/odbc Port Protocol = 8.3 ReadOnly = No RowVersioning = NoShow SystemTables = No ConnSettings = 5. 测试连接 # isql testdb 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 22/206 如出现以上内容,则表⽰psqlodbc配置成功。 /usr/lib64/libodbcpsqlS.so FileUsage = 1 访问UDW数据仓库 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 56/206 3. 测试ODBC驱动是否安装成功 # odbcinst -q -d [PostgreSQL] 如果出现以上输出,代表在这台机器上已成功安装了PostgreSQL的ODBC驱动。 4. 编辑/etc/odbc0 码力 | 206 页 | 5.35 MB | 1 年前3Greenplum 6: 混合负载的理想数据平台
避免显式只读事务(BEGIN-SELECT-END)的两阶段提交 (开发中) ■ fastpath锁(PostgreSQL合并) 32 Pivotal Confidential–Internal Use Only TPC-B基准测试:环境 基于谷歌云平台(Google Cloud Platform,简称GCP),为5个虚拟主机的集群,包含一 个master主机和四个segment主机,master和segment虚拟主机的配置信息如下 TPC-B基准测试:SELECT 表‘SALES’ 表‘SALES’ ■ 3.5倍的TPS提升 ■ master CPU使用率大幅提高 ■ TPS随着master CPU核数增加同 步提高 ■ 22万 TPS (192核单机部署 ,master+18 segments) 34 Pivotal Confidential–Internal Use Only TPC-B基准测试:UPDATE 70倍的TPS提升 35 Pivotal Confidential–Internal Use Only TPC-B基准测试:INSERT ■ 峰值TPS提升3.6倍 36 Pivotal Confidential–Internal Use Only TPC-B基准测试:多语句 表‘SALES’ 表‘SALES’ ■ 峰值TPS提升60倍 BEGIN; UPDATE pgbench_accounts0 码力 | 52 页 | 4.48 MB | 1 年前3Brin Index主Greenplum 7中的理论与实现
Confidential │ ©2021 VMware, Inc. 目录 Brin Index On Heap AppendOnly Table Brin在AppendOnly Table上的实现 性能测试 5 Confidential │ ©2021 VMware, Inc. Block Range Index 存储数据块中元组字段的最 大最小值,用于过滤不符合条 件的数据块 1 3 Confidential │ ©2021 VMware, Inc. 目录 Brin Index AppendOnly Table Brin在AppendOnly Table上的实现 性能测试 15 Confidential │ ©2021 VMware, Inc. AoTable AppendOnly Table是一种紧凑的 数据格式,适用于较少进行 Update/Delete的场景 Confidential │ ©2021 VMware, Inc. 目录 Brin Index AppendOnly Table Brin在AppendOnly Table上的实现 性能测试 19 Confidential │ ©2021 VMware, Inc. Revmap With AO Confidential │ ©2021 VMware, Inc. Add0 码力 | 32 页 | 1.04 MB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
: 用户认证权限 Ø pg_hba.conf : 实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 • 账号类型划分 Ø 管理账号 Ø 开发账号 Ø 调度账号 Ø 业务账号 Ø 测试账号 • 账号名称限定 Ø 所有都用小写字母加下划线的方式 Ø 按照命名规则,做到见名知义 37 Greenplum开发规范 Greenplum使用规范 • 平时使用规范 Ø避免高频率的insert、update操作 Ø避免频繁执行高内存消耗的会话 Ø避免出现死锁 Ø可以在适当的时候执行 vaccum 操作 Ø避免直接在Greenplum执行消耗session会话的操作 Ø尽量不创建索引 • 上线与调度规范 Ø上线的程序,必须要经过测试,才可以生产使用 Ø调度程序需考虑每个任务的前后关系,时间富裕 Ø避免因为过于追求并行度,对多个任务造成相互影响 38 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构0 码力 | 43 页 | 9.66 MB | 1 年前3Greenplum 介绍
区贡献者包括阿里云、中移动等大公司,也有诸多中小公司和数据库爱好者。 开源之后,Greenplum 把敏捷软件开发方法学引入到分布式数据库的开发中,通过使用站立会议、 回顾会议、结对编程、持续集成、测试驱动、单周迭代等敏捷方法建立了高效的快速反馈系统, 大大提高了产品的质量和客户的满意度。Greenplum 5.0 是开源之后发布的第一个稳定版本,大 约保持 1 个半月一个版本的发布速度。Greenplum0 码力 | 3 页 | 220.42 KB | 1 年前3
共 12 条
- 1
- 2