Greenplum上云与优化张广舟(明虚) 阿里云高级专家 Greenplum上云与优化 — ApsaraDB for Greenplum介绍 2016Postgres中国用户大会 目 录 content ApsaraDB for GP的定位 ApsaraDB for GP的内核优化 未来的规划 2016Postgres中国用户大会 ApsaraDB for GP的定位 2016Postgres中国用户大会 2016Postgres中国用户大会 ApsaraDB for GP的定位 GP的优势? 与其他技术的对比? 为什么上云? 2016Postgres中国用户大会 ApsaraDB for GP的定位 ApsaraDB for GP = 简单、高效解决大数据分析需求 MPP + 列存压缩 复杂SQL + 查询优化器 本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 SQL Runtime 本地存储 >5-30倍的性能优势 2016Postgres中国用户大会 ApsaraDB for GP vs. AWS Redshift? “有史以来卖的最好的云服务” 对比项目 ApsaraDB for Greenplum(SSD/SATA) AWS RedShift 外部表 支持OSS外部表 无此设计 地理信息支持 支持(自带PostGIS) 不支持0 码力 | 26 页 | 1.13 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商6 7 7 8 10 10 16 38 38 39 39 39 40 43 44 45 46 47 ⽬录 ⽬录 ⽬录 ⽬录 概览 概览 产品架构 产品架构 云数据仓库产品架构 ⾼可⽤ 快速上⼿ 快速上⼿ ⼀、创建数据仓库 ⼆、连接数据仓库 操作指南 操作指南 关闭数据仓库 启动数据仓库 重启数据仓库 查看数据仓库详情 扩容数据仓库 更改数据仓库密码 扩展,客⼾可以在udw上使⽤MADlib的扩展功能,从⽽让机器学习变得简单,⽀持PostGIS,可以⽅便 的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。 云数据仓库产品架构 云数据仓库产品架构 云数据库仓库 UDW 服务的架构图如下所⽰: UDW 采⽤⽆共享的 MPP 架构,适⽤于海量数据的存储和计算。UDW 的架构如上图所⽰,主要有 Client、Master Node 且在数据更新时,需要额外的维护⼯作。请确保查询集合在使⽤您创建的索引后,性能得到了改善(和全表顺序扫描相⽐)。可以使⽤ EXPLAIN 命令来确认索引是否被使⽤。 创建索引时,需要注意下⾯的问题点: 1. 查询特点:索引对于查询只返回单条记录或者较少的数据集时,性能提升明显。 2. 压缩表:对于压缩的 append 表来说,对于返回⼀部分数据的查询来说性能也能得到提⾼。对于压缩的数据,使⽤0 码力 | 206 页 | 5.35 MB | 1 年前3
Pivotal HVR meetup 20190816竞拍。同时,天天拍车还提供上门检测、线上竞拍、包办手续等一站 式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。0 码力 | 31 页 | 2.19 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum............................................................................................ 8 构筑云化基座 ................................................................................................ ................ 8 支持多种云不受限于基础架构的数据平台 ........................................................................................................................... 8 全局死锁检测(GDD、Global deadlockdetector) 不同芯片的环境,适合本地部署、多云环境(公有云和私有云)中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台Segment 1D Segment 2A Segment 2B Segment 2D Segment 3A Segment 3B Segment 2C Segment 3C Segment 3D 分区 SELECT COUNT(*) FROM orders WHERE order_date >= ‘Oct 1 2007’ AND order_date <= ‘Oct 31 2007’ 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D 15 Pivotal Confidential–Internal Use Only 递归查询 表‘SALES’ 表‘SALES’ ■ 层次结构 ■ 树状结构 WITH RECURSIVE 3C Segment 3D 直接分发 SELECT * FROM orders WHERE id = 1; Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D UPDATE orders0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1多年前,编者翻译了 GP4.2.2 的 AdminGuide,如今,GP 已经历经了无数个版 本更新和迭代,编者也有了更多的感悟,放眼 GP 的中文资料,为之动容,就想着再为 GP 的发展壮大多做那么一点点贡献,挤出一点时间,重新梳理和打磨这个文档,并完 全根据最新的版本特性进行重新整理,希望能对中文爱好者提供一些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 .... - 172 - Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 6 - 全局死锁检测 .................................................................................................. Standby .................................................................................... - 308 - 检测失败的 Instance ......................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 最佳实践分享Online document: http://gptext.docs.pivotal.io/ Download GPText 2.0: https://network.pivotal.io/ 阿里云 Pivotal Greenplum 最佳实践分享 陈淼 Pivotal大中华区大数据资深架构师 目录 Greenplum运维常见问题 0000个对象,在数据目录下地文件数会可能达到上百万 个档,这些文件的拷贝需要花费很长时间 – 使用gpexpand扩容节点时,对象数多,对应到每个实例下的文件数非常多,将这些目的档重分布到新扩展的节 点时间会很长 – 系统表(pg_class,pg_attribute)太大,影响系统工作效率 – 系统元数据检查pg_checkcat等工具运行时间比较长 物理模型经验分享 登录某一个实例数据库的方法-UTILITY模式 – PGOPTIONS='-c gp_session_role=utility' psql dbname –p xxxx – 可以通过这个命令登录实例,一般用于检测单个实例是否运行正常,还有就是用于在集群发生不一致时(只有在非常特殊的情况下才 有可能发生,如表不一致等),进行表维护 Admin常用命令 查看数据库、表占用空间 – select0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum on Kubernetes
容器化MPP数据库AGENDA 云数据库背景 云数据库实现方案 Greenplum on Kubernetes Greenplum Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 → 半结构化/无模式 ○ 数据隔离 → 数据共享 ● 云数据库市场巨大 云数据库市场巨大 ● 云数据库增速巨大 ● DBasS的需求 ● 跨云的需求 云数据库实现方案 云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云 云数据库实现方案 ● 全新数据库 ○ Snowflake ● 原有数据库架构升级 原有数据库架构升级 ○ Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Apache Spark ○ CockroachDB ○ Apache HAWQ 云数据库存储方案 ● 块存储 ○ 文件系统接口 ● 对象存储 ○ 成本低 ○ 扩展性强 ○ 访问延迟高 Greenplum on Kubernetes Network Interconnect0 码力 | 33 页 | 1.93 MB | 1 年前3
Greenplum机器学习⼯具集和案例Center SQL Compatibility (Hyper-Q) 2017.thegiac.com Greenplum ⼤大数据平台 • 一次打包,到处运行:裸机、私有云、公有云 • 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化 基于API日志的⾦金金融产品⽤用户分析 2017.thegiac.com 问题 ● 更更好地理理解不不同种 类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ● 对实时API请求进 ⾏行行分类和安全检测 ● 数据量量⼤大,现有数 据分析团队缺乏技 能 客户 数据科学解决⽅方案 ● 某⼤大型跨国⾦金金 融服务公司 ● 移动应⽤用 API 分析 ● 使⽤用Madlib进⾏行行聚 Means聚类 S 标记会话 人工审查 新会话 建模过程 对API请求结合超时和 K-means聚集处理理 验证聚 类结果 2017.thegiac.com 主题分布热⼒力力图检测异常 2017.thegiac.com 股票分析师 固定收益分析师 客户行为热图 建模效果示例例 2017.thegiac.com 改良前 改良后 X 在R上对data0 码力 | 58 页 | 1.97 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台白皮书 Pivotal Greenplum 5: 新一代数据平台 开源、支持多种云的高级分析数据平台 作者:Keaton Adams、 Dan Baskette、 Cesar Rojas pivotal.io/cn 白皮书 2 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 目录 ........................................................................................... 4 支持多种云不受限于基础架构的数据平台 ...................................................................................... 的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查0 码力 | 9 页 | 690.33 KB | 1 年前3
共 34 条
- 1
- 2
- 3
- 4













