并行访问 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

并行不悖- OLAP 在互联网公司的实践与思考

1 并行不悖 – OLAP 在互联网公司的实践与思考赵飞祥 2 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系四 Greenplum扩展规划六 3 数据仓库体系架构业务数据与数据使用归类时间维度：过去 - 现在 - 未来（数据的生命周期） • “现在”的数据 —— 数据仓库体系架构数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP，趋势分析 • 8 OLAP数据流转 —— dbsync平台 7 数据仓库体系架构 Ø MPP ShareNothing 海量并行处理+完全无共享 Ø cpu计算能力 Ø 数据从Disk上的I/O吞吐性能 Ø master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载（gpfdist+外部表，每小时4TB+） Ø 分布分区 Ø 数据压缩 Ø 外部访问 15 Greenplum现状说明三 Greenplum体系架构

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 精粹文集

分布式文件系统，另外一篇是关于 MapReduce 并行计算框架的理论，分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 下午3:38 2 由此，业界认识到对于海量数据需要一种新的计算模式来支持，这种模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。当时，开放的X86服务器技术已经能很好的支持商用，借助高速网络（当主机，并且成本很低，横向的扩展性还可带来系统良好的成长性。问题来了，在 X86 集群上实现自动的并行计算，无论是后来的 MapReduce 计算框架还是 MPP（海量并行处理）计算框架，最终还是需要软件来实现，Greenplum 正是在这一背景下产生的，借助于分布式计算思想，Greenplum 实现了基于数据库的分布式数据存储和并行计算（GoogleMapReduce ——greenplum，因此而得名）召集了十几位业界大咖（据说来自 google、yahoo、ibm 和 TD），说干就干，花了一年多的时间完成最初的版本设计和开发，用软件实现了在开放 X86 平台上的分布式并行计算，不依赖于任何专有硬件，达到的性能却远远超过传统高昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

Instance ： GP 的计算实例，很多时候也叫 Segment Primary ： GP 的主计算实例 Mirror ： GP 的镜像计算实例 MPP ：大规模并行处理算子：执行计划中的运算操作背景简介多年前，编者翻译了 GP4.2.2 的 AdminGuide，如今，GP 已经历经了无数个版本更新和迭代，编者也有了更多的感悟，放眼 .......................................................................................... - 18 - 并行数据装载 .............................................................................................. ...................................................................................... - 37 - 第五章：访问数据库 ...............................................................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

客户端访问和工具多级容错机制无共享大规模并行处理先进的查询优化器多态存储系统客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构并行数据流引擎高速软数据交换机制 MPP Scatter/Gather 流处理在线系统扩展任务管理服务加载 & 数据联邦高速数据加载近实时数据加载任意系统数据访问存储 & 数据访问混合存储引擎（行存&列存） Pivotal Confidential–Inter nal Use Only MPP(大规模并行处理）无共享体系架构从主节点 … 主节点 SQL • 主节点和从主节点，主节点负责协调整个集群 • 一个数据节点可以配置多个节点实例（Segment Instances) • 节点实例并行处理查询（SQL） • 数据节点有自己的CPU、磁盘和内存（Share nothing） • 高速Interconnect处理持续 Instance Segment Instance Segment Instance 节点N 8 Pivotal Confidential–Inter nal Use Only 数据分布: 并行化的根基最重要的策略和目标是均匀分布数据到各个数据节点。 43 Oct 20 2005 12 64 Oct 20 2005 111 45 Oct 20 2005 42 46 Oct 20

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

现在被Greenplum用于数据仓库现在的解决方案 12 Greenplum愿景：企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险源文件源数据源数据源文件数据仓库和分析应用程序 Greenplum数据架构商用硬件集群分析数据市场企业数据仓库实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 • 确保关键任务的可靠性 • 最出色的性能 • 高度灵活性 • 逐步扩展计算能力 • 动态措施 • 数据访问： • 在一个系统中协调所有企业数据的位置 • 可以通过任何语言（SQL、M/R等）进行分析 14 强大并且不断扩展的合作伙伴网络硬件供应商商务智能工具 15 服务供应商业内支持和认可个方面同时达到最满意的效果：供程序员使用的MapReduce以及供数据库管理使用的 SQL。” Monash Research 的Curt Monash 分析师褒奖 “ Greenplum正在通过新式技术来推动并行数据库的发展，从而满足互联网级企业的需求。” ZDNet的Dana Gardner Magic Quadrant 2007 （”远见者象限”）最佳集群解决方案 Global 250

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

分析型 VS MPP - massively parallel processing - 大规模并行处理 master standby primary segment mirror segment 6 Pivotal Confidential–Internal Use Only 数据分布: 并行化的根基最重要的策略和目标是均匀分布数据到各个数据节点。 43 Oct 20 2005 12 amount FROM orders JOIN customer USING (cust_id) WHERE date=2008; 生成并行查询计划 8 Pivotal Confidential–Internal Use Only 执行并行计划 Standby Master … Master Host Interconnect Segment Host Node1 Segment Confidential–Internal Use Only 卓越的OLAP特性列式存储分区、压缩高级特性递归查询、窗口函数集成分析多格式、多语言 Madlib: 机器学习数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器成熟稳定完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储表‘SALES’

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

Features Confidential │ ©2021 VMware, Inc. 4 Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台，具有良好的弹性和线性拓展能力，内置并行存储、并行通信、并行计算和并行优化功能，兼容 SQL 标准。拥有独特的高效的 ORCA 优化器，具有强大、高效的 PB 级数据存储、处理和实时分析能力，同时支持 OLTP 型业务的混合负载。数据存储分布化是分布式数据库要解决的第一个问题。通过将海量数据分散到多个节点上，一方面大大降低了单个节点处理的数据量，另一方面也为处理并行化奠定了基础，两者结合起来可以极大的提高系统的性能。譬如在 100 个节点的集群上，每个节点仅保存总数据量的 1/100，100 个节点同时并行处理，性能会是单个配置更强节点的几十倍。 Greenplum 不仅仅实现了基本的分布式数据存储，还提供了更高级更灵活的特性，譬如多种分布如 NULL，在存储在默认分区 others 中: 分区表 Confidential │ ©2021 VMware, Inc. 13 Greenplum 支持多态存储，即单张用户表，可以根据访问模式的不同而使用不同的存储方式存储不同的分区。例如根据数据的新、旧程度决定将数据存储至本地硬盘还是以外部表的方式存储在 HDFS 或者是 S3 中。Greenplum 提供以下存储方式: l 堆表

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

NA Instance实例数的配置建议 • Instance是GPDB的最小并行单元，每个Segment 节点一般配置4~8个Instance，初始化完成后很难修改，需要提前规划； • 每个Instance都是一套独立的进程，当客户端发起一个请求时，每个Instance都将FORK子进程并行工作； • 对于并发请求高、面向于复杂的灵活查询的系统，建议每个Segment配置4个或以下Instance，、客户表等采用列存储，其它表采用行存储数据压缩： • 在金融业，行压缩的数据压缩比在1:6左右，一般采用zlib5级压缩 • 数据压缩对于高并发查询分析系统可以大幅降低IO消耗，提升并行处理、混合负载的性能分布键使用： • 尽量采用一个常用关联字段作为分布键，例如账号、客户号，这个可以提高关联条件的命中率，减少关联时数据重分布（主要对大表） • 选用分布键同 waiting状态  解决方法： – 如果是被其它回话锁了，需要等待其它回话结束或者Cancel； – 极端的情况下，某些回话虽然终止了，但事务没有正常终止，此时可以用UTILITY模式访问对应的Instance，将其终止 ex： PGOPTIONS='-c gp_session_role=utility' psql-h segment_host –d dbnme –p 40000

0 码力 | 41 页 | 1.42 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

异性能、环境适应性强在 MPP 数据库领域独占鳌头，基于 Shared Nothing 的 MPP 高性能系统架构，Greenplum 可以将 PB 级的数据仓库负载分解，并使用所有的系统资源并行处理单个查询。同时 Greenplum 具备数据库 ACID 特性，运行符合 ANSI 标准的 SQL，可以让服务器群集能够以单一数据超级计算机的方式运行，且性能比传统数据库或其他同类平台高出数十甚期间不会中断正在运行的所有查询；另外采用了 Jump Consistent Hash 的一致性哈希算法, 在数据重分布期间，每个旧节点仅移动出需要移动的数据到新节点上, 得益于创新的分布式死锁检测，对于大量小表做并行重分布性能提升非常明显。 Greenplum VACUUM 提升将在 Greenplum 7 中实现此功能，能够做到： 1 https://arxiv.org/pdf/2103 提高 VACUUM 删除尾随空堆页面的速度 l 可以选择使用 SKIP_LOCKED 选项来跳过对无法立刻被锁的表进行 VACUUM 和 ANALYZE l 可以使用--jobs 选项并行进行 VACUUMDB 和 VACUUM；也支持—skip-locked Greenplum 集群多站点复制 Greenplum 7 将实现集群之间的灾备相关的特性。众所周知，Greenplum

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

bigint) AS ID) foo DISTRIBUTED BY (id); 2017.thegiac.com 2017.thegiac.com • 适合模型应用于数据子集的场景，并行执行效率非常高 • 如果节点间数据通讯，使用适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 Analysis Nearest Neighbors • k-Nearest Neighbors 成熟的数据科学学习库 2017.thegiac.com • 更好的并行度 • 算法充分利用 MPP 架构实现并行 • 更好的可扩展性 • 算法随着数据扩充而线性扩展 • 更高的预测精准度 • 适用更多数据，而不是抽样 • 顶级 ASF 开源项目 • 社区驱动开发模式类分析，建⽴立会话识别模型和主题模型 ● 建⽴立scoring pipeline, 对新访问的安全性进⾏行行评估 ● 使⽤用可视化⼯工具对结果进⾏行行更更好地呈现背景 2017.thegiac.com 数据源 • 数据 - API 访问⽇日志 - 客户数据 • 45 天区域数据 • 50亿条数据

0 码力 | 58 页 | 1.97 MB | 1 年前
3

共 24 条前往

页

分类

语言

格式