后端结果存储 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum数据仓库UDW - UCloud中立云计算服务商

的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。云数据仓库产品架构云数据仓库产品架构云数据库仓库 UDW 服务的架构图如下所⽰： UDW 采⽤⽆共享的 MPP 架构，适⽤于海量数据的存储和计算。UDW 的架构如上图所⽰，主要有 Client、Master Node 和 Compute Node 组成。基本组成部分的功能如下：产品架构 Greenplum数据仓库 UDW Copyright 接收客⼾端的连接请求负责权限认证处理 SQL 命令调度分发执⾏计划汇总 Segment 的执⾏结果并将结果返回给客⼾端 3. Compute Node： Compute Node 管理节点的计算和存储资源每个 Compute Node 由多个 Segment 组成 Segment 负责业务数据的存储、⽤⼾ SQL 的执⾏⾼可⽤⾼可⽤产品架构 Greenplum数据仓库 UDW Copyright 2012-2021 UCloud 优刻得 10/206 2.选择计算节点机型、计算节点数量以及付费⽅式。其中可选的机型配置有：机型机型名称名称配置配置存储密集型 ds1.large 4核 24G 2000G(SATA) 存储密集型 ds1.6xlarge 24核 144G 12000G(SATA) 计算密集型 dc1.large 2核 12G 300G(SSD) 快速上⼿ Greenplum数据仓库

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum 精粹文集

，在技术上也难于满足数据计算性能指标，传统主机的 Scale-up 模式遇到了瓶颈， SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于 GFS 分布式文件系统，另外一篇是关于 MapReduce 并行计算框架的理论，分布式计算模式在互联网 MPP（海量并行处理）计算框架，最终还是需要软件来实现，Greenplum 正是在这一背景下产生的，借助于分布式计算思想，Greenplum 实现了基于数据库的分布式数据存储和并行计算（GoogleMapReduce 实现的是基于文件的分布式数据存储和计算，我们会在后面比较这两种方法的优劣性）。话说当年 Greenplum（当时还是一个 Startup 公司，创始人家门口有一棵青梅 ——green PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法支持，除对 ANSI SQL 完全支持外，还支持比如分析函数（SQL2003 OLAP window 函数），还可以用多种语言来写存储过程，对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远，很多分析功能都不支持，而 Greenplum 作为 MPP 数据分析平台，这些功能都是必不可少的。 2) Mysql

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

业的建议和解决方案，提供最专业的技术支持服务，提供最专业的落地实施支持。十多年来，参与过的项目不计其数，有 POC 测试，有开发支持，有故障支持，有长期驻场支持，有临时的功能支持，甚至可能会作为用户看不见的后端支持，总之，我们的目标是，努力解决用户的一切不违背自然规律的诉求，我们跟随着 Greenplum 的成长，见证了 Greenplum 从闭源到开源的成长历程，一路给 Greenplum 做各种补丁 ..................................................................................... - 21 - 数据是如何存储的 ................................................................................................. ..................................................................................... - 89 - 使用表空间存储 DB 对象 ......................................................................................... - 90

0 码力 | 416 页 | 6.08 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP，趋势分析 • 8 OLAP数据流转 —— dbsync平台 7 数据仓库体系架构数据库归档，只能load，不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系四 Greenplum扩展规划 10 greenplum体系架构 postgresql体系结构 11 greenplum体系架构 postgresql体系结构 • pg结构组成 Ø 连接关系系统 Ø 编译执行系统 Ø 存储执行系统 Ø 事务系统 Ø 系统表 • pg逻辑和物理结构 Ø instance实例 - user - tablesapce Ø database - schema - table,view,function

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

信息传播合规性报告资产组合分析客户报表电汇通知分部记分卡客户关系管理、收购和盈利率欺诈检测欺诈分析客户流失分析响应时间流量分析产品关联/捆绑零售存储运营分析客户忠诚度计划协作规划和预估预防亏损优化供应链当今的数据仓库方案基于硬件专有，昂贵不可扩展针对OLTP进行了优化主流 10 数据库行业所面临的挑战网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率数据库管理系统（DBMS）的规模/容量 11 需要采用一种新的方法 •“一切皆可商用”：商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘过去Google™ 曾经用来实现信息搜索功能的技术，现在被Greenplum用于数据仓库体系架构：海量并行处理体系，针对商务智能/数据仓库进行了优化，解决了所有数据流瓶颈问题 Greenplum数据引擎全球最强大的分析数据仓库海量并行查询 • 可以比以往更快地获取查询结果 • 在数据增长的同时确保高性能分析统一的分析处理功能 • 为数据仓库、市场、 ELT、文本挖掘、统计运算提供统一的平台 • 可以使用SQL、 MapReduce、R等在所有层次上对任何数

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

2013 Pivotal. All rights reserved. Greenplum 简介 4 Pivotal Confidential–Inter nal Use Only GPDB：为大数据存储、计算、挖掘而设计标准 SQL 数据库：ANSI SQL 2008 标准，OLAP，JDBC/ODBC 支持ACID、分布式事务分布式数据库：线性扩展，支持上百物理节点企业级数据库：全球大客户超过无共享大规模并行处理先进的查询优化器多态存储系统客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构并行数据流引擎高速软数据交换机制 MPP Scatter/Gather 流处理在线系统扩展任务管理服务加载 & 数据联邦高速数据加载近实时数据加载任意系统数据访问存储 & 数据访问混合存储引擎（行存&列存）多种压缩，多级分区表 Segment 2D Segment 3A Segment 3B Segment 3C Segment 3D 10 Pivotal Confidential–Inter nal Use Only 多级分区存储 • 哈希Distribution：数据均匀的分布到各个数据节点 • 范围分区：数据节点内部，根据多种规则分区，降低扫描量数据集 Segment 1A Segment 1C Segment

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

李正龙 Confidential │ ©2021 VMware, Inc. Agenda 2 - Greenplum 分布式数据库简介 - Greenplum 集群化概述 - 分布式数据存储与多态存储 - 分布式查询优化器与执行器 - Greenplum 中文社区 3 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据库简介 Features Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台，具有良好的弹性和线性拓展能力，内置并行存储、并行通信、并行计算和并行优化功能，兼容 SQL 标准。拥有独特的高效的 ORCA 优化器，具有强大、高效的 PB 级数据存储、处理和实时分析能力，同时支持 OLTP 型业务的混合负载。 Greenplum 分布式数据库简介 5 Confidential │ Segment 提供高可用支持 7 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据存储与多态存储 Hash/Randomly/Replicated Confidential │ ©2021 VMware, Inc. 8 数据存储分布化是分布式数据库要解决的第一个问题。通过将海量数据分散到多个节点上，一方面大大降低了单个节点处理的数据量，另一方面也为处理

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

• 各种数据源：Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式：结构化、半结构化（JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展：PL/X、Extension、PXF、外部表机制 • 完善的标准支持：SQL、JDBC、ODBC • 集成数据平台：BI/DW、文本、GIS、图、图像、机器学习 • 企业级稳定性，成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X：各种语言实现自定义函数（存储过程） • MADLib: 数据挖掘、统计分析、图（Graph）等算法 • GPText：文本检索和分析 • GeoSpatial：地理信息数据分析 • Image: 图像数据分析 MADlib 特性 2017.thegiac.com 客户端数据库服务器器 Master Segment 1 Segment 2 Segment n … SQL 存储过程结果集 String 聚集 psql … 执⾏行行流程 2017.thegiac.com External Sources Load, streaming, etc

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

查询优化器相比，GPORCA 大幅度地提高了查询性能。 Pivotal Greenplum 5：新一代数据平台作为重要的新版本，Pivotal Greenplum 5 带来了多项产品改进和新增功能，在管理数据和对数据库中存储的信息应用数据科学、分析、报告和数据洞察方法方面，这些功能对大多数客户都很有帮助。Greenplum 解决方案的架构设计目的是管理非常复杂的查询，以及为符合 ANSI 标准的 SQL 提供强有力 5：新一代数据平台。以开源创新替代专有分析环境为了支持 Greenplum 的后续发展，Pivotal 于 2015 年决定将其产品 Greenplum Database 开源。由此产生的最积极结果是 Greenplum Database 社区规模迅速扩大。该社区的成员为核心组件的开发贡献了力量，并且已经受益于 Pivotal 长久以来在市场上取得的成功。从 2017 年初开始，他们每个月发布一次 PostgreSQL 新增功能。新一代数据平台 IT 人员开发人员业务分析师数据科学家灵活部署数据源和数据管道 Spring Cloud Data Flow ETL 本地存储 HDFSS 云对象存储 GemFire Spark 其他 RDBMSes 多结构数据 PIVOTAL GREENPLUM 平台原生接口分析应用用户 JDBC、OBBC Teradata SQL

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum 架构概览

节点、⼀个 Standby Master 节点以及多个 Segment 节点所组成 Master 节点通常不存储数据，只作为数据库的⼊⼝对 Segment 进⾏管理；Standby Master 节点则为 Master 提供⾼可⽤⽀持；⽽ Segment 节点就是真正的⼯作节点，数据存储在此处，并且⼀个 Segment 节点上通常会有多个 PostgreSQL 实例 Master-Segment Master-Slave 模型下，Master 和 Slave 拥有相同的数据，并且 Master 是存储和处理数据的唯⼀⼊⼝，Slave 仅复制 Master 的数据。⽐如 MySQL 的主从模型、Redis 的主从模型在 Master-Segment 模型下，⾸先 Master 节点不存储数据，其次就是数据将会以分⽚的⽅式存储在多个 Segment 节点中。这⾥可以类⽐ Redis Cluster，只不过在项⽬初期，我们使⽤⼀张表 T 存储数据。随着业务的增多，单表出现性能瓶颈，因⽽将 T ⽔平拆分成多个表进⾏存储，这个过程通常称为分区。紧接着，单⼀的数据库实例出现瓶颈，因此需要使⽤多个节点创建多个数据库实例，再按照某种规则将数据尽可能均匀地分布到各个节点上，这个过程通常称之为分⽚ GP 同时⽀持数据的分⽚和分区，具体的分⽚和分区规则将会在后⾯的总结中详述同时，GP 在存储上⽀持多态存储，也就是对于

0 码力 | 1 页 | 734.79 KB | 1 年前
3

共 26 条前往

页

分类

语言

格式