Greenplum上云与优化张广舟(明虚) 阿里云高级专家 Greenplum上云与优化 — ApsaraDB for Greenplum介绍 2016Postgres中国用户大会 目 录 content ApsaraDB for GP的定位 ApsaraDB for GP的内核优化 未来的规划 2016Postgres中国用户大会 ApsaraDB for GP的定位 2016Postgres中国用户大会 2016Postgres中国用户大会 ApsaraDB for GP的定位 GP的优势? 与其他技术的对比? 为什么上云? 2016Postgres中国用户大会 ApsaraDB for GP的定位 ApsaraDB for GP = 简单、高效解决大数据分析需求 MPP + 列存压缩 复杂SQL + 查询优化器 本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 SQL Runtime 本地存储 >5-30倍的性能优势 2016Postgres中国用户大会 ApsaraDB for GP vs. AWS Redshift? “有史以来卖的最好的云服务” 对比项目 ApsaraDB for Greenplum(SSD/SATA) AWS RedShift 外部表 支持OSS外部表 无此设计 地理信息支持 支持(自带PostGIS) 不支持0 码力 | 26 页 | 1.13 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商6 7 7 8 10 10 16 38 38 39 39 39 40 43 44 45 46 47 ⽬录 ⽬录 ⽬录 ⽬录 概览 概览 产品架构 产品架构 云数据仓库产品架构 ⾼可⽤ 快速上⼿ 快速上⼿ ⼀、创建数据仓库 ⼆、连接数据仓库 操作指南 操作指南 关闭数据仓库 启动数据仓库 重启数据仓库 查看数据仓库详情 扩容数据仓库 更改数据仓库密码 扩展,客⼾可以在udw上使⽤MADlib的扩展功能,从⽽让机器学习变得简单,⽀持PostGIS,可以⽅便 的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。 云数据仓库产品架构 云数据仓库产品架构 云数据库仓库 UDW 服务的架构图如下所⽰: UDW 采⽤⽆共享的 MPP 架构,适⽤于海量数据的存储和计算。UDW 的架构如上图所⽰,主要有 Client、Master Node 24G 2000G(SATA)1500 15000 ⾼IO独享型 dc2.large 8核 32G 900G(SSD) 2300 23000 RSSD云盘型 rc1.large 4核 32G 600G(SSD) 1500 15000 RSSD云盘型 rc1.xlarge 8核 64G 1200G(SSD) 3000 30000 数据仓库价格 Greenplum数据仓库 UDW Copyright0 码力 | 206 页 | 5.35 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum............................................................................................ 8 构筑云化基座 ................................................................................................ .......................................................................................... 8 支持多种云不受限于基础架构的数据平台 ...................................................................................... Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点, 同时介绍了 Greenplum 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原则,用全新的HTAP核心设计满足实时处理业务需求。在此也为所有为Greenplum on openEuler 成功测试运行所做努力贡献的人员表示感谢!0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 介绍Greenplum 介绍 Greenplum 是全球领先的开源大数据平台,是能够提供包含实时处理、弹性扩容、混合负载、云 原生和集成数据分析等强大功能的大数据引擎。 著名分析机构 Gartner 2019 年报告中,在经典数据分析领域 Greenplum 全球排名第三,实时分 析领域全球排名并列第四。Greenplum 是两个领域中排名前十的产品中的唯一一款开源产品。 Greenplum 基于 MPP(大规模并行处理)架构构建,具有良好的弹性和线性扩展能力,并内置 并行存储、并行通讯、并行计算和优化技术。同时,Greenplum 还兼容 SQL 标准,具备强大、 高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 银行、航旅纵横、中国 移动、华为等。自 2015 年开源以来,更是吸引了包括阿里云、百度云、中移动、旷世、去哪儿 网、易观、腾云科技、饿了么、金风科技在内大量开源用户。 Greenplum 大数据平台的优势 ● 一次打包到处运行的平台:部署灵活,不受限于硬件环境和平台,无论裸机、私有云、公 有云均可部署。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定, 从而0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum 精粹文集互联网行业经过之前近 10 年的由慢到快的发展,累积了大量信息和数 据,数据在爆发式增长,这些海量数据急需新的计算方式,需要一场 计算方式的革命。 传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也 难于满足数据计算性能指标,传统主机的 Scale-up 模式遇到了瓶颈, SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 1 16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 行工作、负责数据分布、Pipeline 计算、镜像复制、健康探测等等诸 多任务。 在 Greenplum 开源以前,据说一些厂商也有开发 MPP 数据库的打算, 其中最难的部分就是在 Interconnect 上遇到了障碍,可见这项技术的 关键性。 Greenplum 集群架构 Big Date2.indd 3 16-11-22 下午3:38 4 2. Greenplum 为什么选择 Postgreeql 做轮子0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1Greenplum 官方微信公众号和加入官方社区技术讨论群: ©2020 Esena Chen(陈淼 miaochen@mail.ustc.edu.cn) 编者工作十几年,先后供职于民企,国企,外企,截止目前,已从事 Greenplum 技术工作 10 余年,10 余年来,专注在 Greenplum 和相关技术领域,主要工作职责是 售后支持,帮助我们的 售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 Greenplum 的 成长,见证了 继续运营。近年来,Greenplum 在国内建立了一个较大规模的研发团队,越来越多的承担更重要的研发任务,包括 PostgreSQL 的版本合并等,从而,可以为国内商业用户提供更专业和更优质的本地 化服务,用户遇到问题,反馈给专业技术支持人员,或者专业售后服务团队,他们会同 用户一起排查和解决问题,如果有需要,还会保持与研发的持续沟通,虽然以前也是这 种工作模式,但由于时区和语言文化等诸多差异,沟通链路较长,时间较久,研发的本 地化,使得沟通的效率大大提高。0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台白皮书 Pivotal Greenplum 5: 新一代数据平台 开源、支持多种云的高级分析数据平台 作者:Keaton Adams、 Dan Baskette、 Cesar Rojas pivotal.io/cn 白皮书 2 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 目录 ........................................................................................... 4 支持多种云不受限于基础架构的数据平台 ...................................................................................... 的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查0 码力 | 9 页 | 690.33 KB | 1 年前3
深度揭秘Greenplum开源数据库透明加密用户数据存在直接暴露的风险 • 非部门员工运维(原厂,主机厂或者合作伙伴) • 事后审计难度很大 • 服务器数据被盗(托管或云部署) 用户的问题 现有解决方案 基于操作的系统的硬盘加密 • 只能防范服务器硬盘被盗 • 对运维安全无能为力 基于pgcypto的加密 • 可以满足数据安全要求 • 非原生方案 • 问题很多 基于pgcypto的数据加密方案 pgcypto Postgresql社区提供的一款简单加密插件 加密目标 • 表数据 • 预写日志数据 • 主从节点所有数据 • 索引及其他表辅助数据 • 磁盘缓存文件 设计目标 • 对用户和数据库透明 • 高性能,使用CPU加密指令集 • 内核原生 GPDB透明加密 加密 Planer TDE key Data (plain) Data (Encrypted) Executeor GPDB透明加密 解密 Query Planer (Encrypted) Data (Encrypted) Data (Decrypted) 总结 总结 • 高性能 • KMS保证秘钥安全性 • 对用户查询和数据库完全透明 • GPDB原生 • 不改变现有工作逻辑 对于现有方案的优势 pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 •0 码力 | 48 页 | 10.19 MB | 1 年前3
Greenplum机器学习⼯具集和案例2017.thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Center SQL Compatibility (Hyper-Q) 2017.thegiac.com Greenplum ⼤大数据平台 • 一次打包,到处运行:裸机、私有云、公有云 • 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化 内循环函数 (实现机器器学习逻辑) Python SQL C++ MADlib 架构 2017.thegiac.com • 是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google 创办人 Larry Page来命名 Image from h_ps://en.wikipedia.org/wiki/PageRank 示例例0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台段提交 (开发中) ■ fastpath锁(PostgreSQL合并) 32 Pivotal Confidential–Internal Use Only TPC-B基准测试:环境 基于谷歌云平台(Google Cloud Platform,简称GCP),为5个虚拟主机的集群,包含一 个master主机和四个segment主机,master和segment虚拟主机的配置信息如下 master CURRENT_TIMESTAMP); END; HTAP - Hybrid transactional/analytical processing - 混合事务/分析处理 Gartner技术成熟度曲线 OLTP-OLAP独立部署 OLTP数据库 OLAP数据仓库 ■ 实时性 ■ 数据同步复杂性 ■ 应用复杂性 HTAP HTAP = ? ■ 卓越的OLAP特性 ■ 出色的OLTP特性0 码力 | 52 页 | 4.48 MB | 1 年前3
共 18 条
- 1
- 2













