Pivotal Greenplum 5: 新一代数据平台Teradata SQL Apache MADlib Python. R、 Java、Perl、C Apache SOLR PostGIS ANSI SQL 其他数据库 SQL ML/统计数据/图形 程序化 文本 地理空间 公有云 私有云 完全 托管云 本地 BI / 报告 自定义应用 机器学习 AI SQL 大规模 并行处理 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload 此外,Greenplum 5 还支持最新版 Apache MADlib(可用 SQL 进行机器学习和图分析),支持在 Apache Solr 数据库内实 施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接受 来自支持的 Solr 查询处理器的采用混合语法的查询)。PostGIS 程序包是 PostgreSQL 的空间数据库扩展,可让地理信息 系统 (GIS) 2010 年底,Greenplum 开始在内部开发一款新型查询优化器,并在 Greenplum 4.3.5 版中首次推出,名为 GPORCA。 GPORCA 能够针对分析数据仓库中常见的一些复杂情况生成更高效的代码,因而非常实用。过去,系统默认使用传统查询 优化器,但自 Greenplum 5 起,GPORCA 将成为默认查询优化器。它能够通过并发的混合工作负载处理多种复杂查询, 并可提高查询性能。20 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum Database 管理员指南 6.2.1......................................................................................... - 354 - 生成扩展配置文件 ............................................................................................ 并行数据装载 管理与监控 管理节点:Master Master 作为 GP 的访问入口,主要负责处理客户端连接的访问以及用户提交的 SQL 语句的解析、生成执行计划、优化执行计划等。Master 不存储业务数据,只存储 用于维持系统运行的全局信息,比如,对象定义信息,统计信息等,Master 非常重要, 如果 Master 丢失,即便是原厂专业技术支持,也不能保证恢复所有信息。 上存储着全局系统表(Global System Catalog)(包含数据库系统自 身元数据的数据表),但不存储任何业务数据,业务数据只存储在 Instance 上。 Master 负责客户端的登录认证、SQL 命令接收并生成并行执行计划、对执行计划进行 优化、在 Instance 之间分发执行计划、整合 Instance 处理结果、将 Instance 的 处理结果汇总并反馈给客户端程序。 目前,GP 还不支持0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum开源MPP数据库介绍通过网络进行数据交换和汇总 Confidential │ ©2022 VMware, Inc. 7 执行架构 Interconnect Client Ø Coordinator: q 管理其它节点 q 生成分布式计划 q 下发计划和汇总结果 q 管理分布式事务 Ø Segments: q 存储数据,share-nothing q 产生计算进程 Ø Libpq:控制信道 Ø Interconnect: executor)负责执行查询 Ø 查询的生命周期: 1) 客户端连接coordinator, coordinator fork出QD 2) QD 拿到纯文本的查询,解析、优化、生成一个树形结构的分布式计划 3) QD 生成slice结构,生成每个slice的一系列进程结构(Gang) 4) QD 连接segment节点,segment节点fork出QE,QE执行分布式计划 5) QD 从QE归集结果,返回给客户端 从QE归集结果,返回给客户端 Confidential │ ©2022 VMware, Inc. 14 分布式执行和事务 Ø MVCC q Xmin, Xmax 是节点本地的 Ø 分布式快照 q QD生成,下发给QE q segment本地事务异步两阶段提交,保持一致性 Ø HTAP 优化 q 全局死锁检测 q 只读事务、只涉及到某个节点的操作、vacuum Ø SIGMOD 2021: Greenplum:0 码力 | 23 页 | 4.55 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 GreenplumCPU 2 个数量 级的性能加速,尤其对于可预测的分析用例和图像识别,这些功能将展现奇效。支持在 Apache Solr 数据库内实施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接 受来自支持的 Solr 查询处理器的采用混合语法的查询)。PostGIS 程序包是 PostgreSQL 的空间数据库扩展,可让地 理信息系统 (GIS) 采用星型、雪花型等多维数据模式。包含 7 张事实表、17 张维度表,平均每张表含有 18 列,其工作负载包 含 99 个 SQL 查询,覆盖 SQL99 和 2003 的核心部分以及 OLAP。这个测试集包含对大数据集的统计、报表生成、联 机查询、数据挖掘等复杂应用,测试用的数据和取值是有倾斜的,与真实场景非常相似。 b. 测试环境简介 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum d. 测试步骤 1. 分别选取不同的 OS 镜像创建三台 ARM 实例并搭建 Greenplum 6.7.0 三节点集群环境。 2. 在 Master 应用 TPC-DS tools, 生成 5GB 测试数据,并导入 Greenplum 测试集群。 3. 执行 TPC-DS tools 中的 99 个查询任务,并记录查询时间。 4. 重复 5 次测试。 以下所有测试数据均由0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 精粹文集题,Greenplum 采 用 Master-slave 架 构, Master 是否会成为瓶颈?完全不用担心,Greenplum 所有的并行任务 都是在 Segment 数据节点上完成后,Master 只负责生成和优化查询 计划、派发任务、协调数据节点进行并行计算。 按照我们在用户现场观察到的,Master 上的资源消耗很少有超过 20% 情况发生,因为 Segment 才是计算和加载发生的场所(当然, 16-11-22 下午3:38 36 2. 分析方法和处理技巧 1) 遇到临时 schema 的问题,命名为 pg_temp_XXXXX,可以直接删除。 通过 gpcheckcat 检查后,会自动生成对临时 schema 的修复脚本。 由于临时 schema 的问题会干扰检查结果,因此,处理完后,需要 再次用 gpcheckcat 检查。 2) 如遇个别表对象元数据不一致的情况,通常只会影响该对象的 接下来,评估一下外部表加载数据的性能: 1) 一个 gpfdist 服务只使用一个 CPU 核的资源。 因此,通常,一个 gpfdist 服务每秒可以处理约 400MB~450MB 的 TXT 文本,如果是 CSV 格式,每秒可以处理约 300MB~350MB。 2) 一个 PrimaryInstance 在处理一个外部表加载时,只使用一个 CPU 核的资源。 通常,一个 Primary0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum机器学习⼯具集和案例MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum 逻辑回归 计算 KS 分值 模型验证 ⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 特征⽣生成 验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 逻辑回归 Elastic Net 特征选择 模型 1 2 3 4 5 60 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享标准SQL支持,SQL 2003 OLAP扩展 支持 MapReduce 扩展编程语言 (Python,R, Java, Perl, C/C++) 第三方工具 BI 工具, ETL 工具 文本分析,数据挖掘等 管理工具 GP Command Center GP Workload Manager 7 Pivotal Confidential–Inter nal Use Only MPP(大规模并行处理)无共享体系架构 Motion Table Scan Hash Hash Join Gather Motion SLICE 3 SLICE 1 SLICE 2 SEGMENT 2 SEGMENT 1 生成并行查询计划 12 Pivotal Confidential–Inter nal Use Only master segment1 segment2 QD process slice 3 Confidential–Inter nal Use Only 优化器 本地存储 主节点Segment 系统表 分布式事务 Interconnect 调度器 执行器 解析器 优化器 处理解析树,生成 查询计划 查询计划描述了如 何执行查询 主节点 Segment 实例 本地事务 执行器 系统表 本地存储 Segment 主机 Segment 实例 Local TM 执行器Executor0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台SELECT customer, amount FROM orders JOIN customer USING (cust_id) WHERE date=2008; 生成并行查询计划 8 Pivotal Confidential–Internal Use Only 执行并行计划 Standby Master … Master Host Interconnect • Gist • GIN • BRIN (开发中) <10ms的访问 时间,即使是 上亿条记录 <~ 100 不同值 B-Tree Bitmap 地理空间 区域 Gist 文本倒排 索引 GIN 28 Pivotal Confidential–Internal Use Only Segment 1A Segment 1B Segment 1C Segment 1D0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum 介绍HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 SQL 成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案Greenplum数据引擎 全球最强大的分析数据仓库 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、 ELT、文本挖掘、统计 运算提供统一的平台 • 可以使用SQL、 MapReduce、R等在 所有层次上对任何数 据进行并行分析 19 通过经济的方案扩展 到千万亿字节规模 • 不用担心数据增长或 者开始的规模太小 处理在任何地点存储的任何类型的数 据 • 将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 业务问题 • 改进定位广告 • 竞争对手 • Teradata0 码力 | 45 页 | 2.07 MB | 1 年前3
共 16 条
- 1
- 2













