数据流模型 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

并行不悖- OLAP 在互联网公司的实践与思考

6 数据仓库体系架构数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP，趋势分析 • 8 OLAP数据流转 —— dbsync平台继续建设多样化的postgresql数据集市，满足不同需求 • 优化现有业务的调度实现 Ø 时间周期的考量 Ø 并发与功能实现的权衡 Ø 增强任务可控性和可度量性 • 支持符合条件的新业务 Ø 抽象业务模型，整合使用分类 Ø 简化上线模型，优化上线方式 40 Greenplum扩展规划新业务上线流程 • 把握三个方面，解决三个问题 Ø 确认数据来源与传输，解决原始数据从那里来的问题 Ø 确认数据如何计算，解决数据存储和计算加工的问题

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

开放式系统：在通用系统和开放源软件的基础上创建前提条件 – 硬件：基于开放式标准硬件 – 软件：Postgres和Greenplum – 体系架构：海量并行处理体系，针对商务智能/数据仓库进行了优化，解决了所有数据流瓶颈问题 Greenplum数据引擎全球最强大的分析数据仓库海量并行查询 • 可以比以往更快地获取查询结果 • 在数据增长的同时确保高性能分析统一的分析处理功能 • 为数据仓库、市场、网络互连并行查询规划和调度区段服务器（处理和存储） SQL 查询和 MapReduce程序 MPP （海量并行处理） “完全不共享”体系 Greenplum体系：并行数据流 21 • 通用并行数据流引擎可以通过本地方式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核将所有处理操作尽量移动到数据附近计算内核 Greenplu m并行数据流引擎对本地磁盘进行直接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术（由Google普及）的产品 • 采用新的编程模型，在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 MapReduce Greenplum MapReduce的优势 • 处理在任何地点存储的任何类型的数据

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum 精粹文集

来交换数据，效率很低，MapReduce 要求每个步骤间的数据都要序列化到磁盘，这意味着 MapReduce 作业的 I/O 成本很高，导致交互分析和迭代算法开销很大，MPP 数据库采用 Pipline 方式在内存数据流中处理数据，效率比文件方式高很多。总结以上几点，MPP 数据库在计算并行度、计算算法上比 Hadoop 更加 SMART，效率更高；在客户现场的测试对比中，Mapreduce 对于单表的计算 Append-only 的特性，SQL-On-Hadoop 大多不支持数据局部更新和删除功能 (update/delete)；例如 Spark 计算时，需要预先将数据装载到 DataFrames 模型中；基本上都缺少索引和存储过程等特征除 HAWQ 外，大多对于 ODBC/JDBC/DBI/OLEDB/.NET 接口的支持有限，与主流第三方 BI 报表工具的兼容性不如 MPP 数据库的任务和用于少数次的访问，而且主要用于 Batch（不需要交互式），对计算性能不是很敏感，那 Hadoop 也是不错的选择，因为 Hadoop 不需要你花费较多的精力来模式化你的数据，节省数据模型设计和数据加载设计方面的投入。这些系统包括：历史数据系统、ETL 临时数据区、数据交换平台等等。切记，千万不要为了大数据而大数据（就好像不要为了创新而创新一个道理），否则，你项目最后的产出与你的最初设想可能

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

产品特性客户端访问和工具多级容错机制无共享大规模并行处理先进的查询优化器多态存储系统客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构并行数据流引擎高速软数据交换机制 MPP Scatter/Gather 流处理在线系统扩展任务管理服务加载 & 数据联邦高速数据加载近实时数据加载任意系统数据访问存储 & 数据访问一个数据节点可以配置多个节点实例（Segment Instances) • 节点实例并行处理查询（SQL） • 数据节点有自己的CPU、磁盘和内存（Share nothing） • 高速Interconnect处理持续数据流（Pipelining） Interconnect Segment Host Segment Instance Segment Instance Segment Instance Segment

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

generate_series(1,30:: bigint) AS ID) foo DISTRIBUTED BY (id); 2017.thegiac.com 2017.thegiac.com • 适合模型应用于数据子集的场景，并行执行效率非常高 • 如果节点间数据通讯，使用适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 2017.thegiac.com ⽤用户案例例 1 Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测模型不不够精准，需要更更好的邮件营销策略略 ● 现有数据分析流程繁琐，速度慢，有很多⼿手动步骤，易易出错客户数据科学解决⽅方案 ● 某⼤大型跨国多元化传媒和娱乐公逻辑回归计算 KS 分值模型验证⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理特征⽣生成验证预测信息价值⽅方差膨胀因⼦子成对相关性逻辑回归 Elastic Net 特征选择模型 1 2 3 4 5

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

Confidential │ ©2021 VMware, Inc. Greenplum 分布式执行器 QD/QE/火山模型/Gang Confidential │ ©2021 VMware, Inc. 25 Greenplum，或者说 PostgreSQL 是进程模型，而不是类似于 MySQL 的线程模型。主进程 postmaster 是整个数据库实例的总控进程，负责启动和关闭数据库实例。当客户端和 Coordinator 发来的计划树，对每一个节点按照拉模型 (火山模型) 进行执行。 QD && QE Confidential │ ©2021 VMware, Inc. 26 QD && QE Confidential │ ©2021 VMware, Inc. 27 火山模型，或者说拉模型，是指从最顶层的输出节点开始，不断从下层节点拉取数据，一种自顶向下的执行方式。最常见的拉模型是 Tuple-At-A-Ti Greenplum、PostgreSQL、MySQL 以及 Oracle 等主流数据库均采用拉模型。拉模型的每个算子都实现了从下层节点获取一条元组的 GetNext 函数，每次调用该函数都会从下层节点返回一条元组或者 EOF 的 NULL 指针。上层节点不断地调用 GetNext 函数从下层节点获取数据，直至数据全部获取完毕。火山模型 postgres=# explain select * from t order

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Greenplum 架构概览

和 Master- Slave 有何区别? 在 Master-Slave 模型下，Master 和 Slave 拥有相同的数据，并且 Master 是存储和处理数据的唯⼀⼊⼝，Slave 仅复制 Master 的数据。⽐如 MySQL 的主从模型、Redis 的主从模型在 Master-Segment 模型下，⾸先 Master 节点不存储数据，其次就是数据将会以分⽚的⽅式存储在多个 Segment 节点中。这⾥可以类⽐ Redis Cluster，只不过 Redis Cluster 是去中⼼化的。在 Master-Segment 模型中通常也会包含 Master-Slave 模型，也就是增加数据副本，以实现⾼可⽤简单地来说，Master-Slave 主要进⾏数据复制（冗余），⽽ Master-Segment 则会同时进⾏数据分区（⽔平扩展）和复制（冗余）分区与分⽚基于⾏的存储⽅式，也可以选择基于列的存储⽅式，并且⽀持诸如 S3、HDFS 等外部存储 GP 基本查询流程 PostgreSQL 进程模型 PostgreSQL（以下简称 PG）采⽤的是经典的 C/S 模型，即 Client-Server 模型，同时使⽤多进程的⽅式⽀持并发查询与写⼊。也就是说，每当有⼀个客户端连接⾄ PG 时，就会有⼀个⼦进程被创建出来。postmaster 进程和

0 码力 | 1 页 | 734.79 KB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

Confidential–Internal Use Only 卓越的OLAP特性列式存储分区、压缩高级特性递归查询、窗口函数集成分析多格式、多语言 Madlib: 机器学习数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器成熟稳定完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储表‘SALES’ 优化分布式大数据系统中特别复杂的查询 18 Madlib: 迭代并行模型训练 Master model = init(…) WHILE model not converged model = SELECT model.aggregation(…) FROM data table ENDWHILE 模型存储过程 … 广播 Segment 2 Segment Segment n … Transition 函数操作一小批数据并更新模型状态 1 Merge 函数 2 Final函数 3 Segment 1 19 Madlib: PageRank性能 Greenplum集群: ● 1 master ● 4*6 segment 50亿条链接 (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

的表格创建类似于 postgresql，由于 udw 采⽤ mpp 数据，创建表格的时候可以选择不同的数据分布策略，不同的存储⽅式等等。创建表格的时候可以定义下⾯信息：数据类型表约束数据分布策略表存储模型分区策略外部表：udwfile、udwhdfs 下⾯分别根据上⾯的可选信息对表格设计进⾏分析。 4.1 数据类型数据类型开发指南 Greenplum数据仓库 UDW Copyright 2012-2021 UCloud 优刻得 85/206 备注：更多关于分区策略的的使⽤可以通过命令⾏执⾏\h create table 或者 \h alter table 查看 4.4 表存储模型（表存储模型（heap表和表和appendonly表）表） UDW ⽀持两种类型的表：堆表（heap table）和追加表（Appendonly table）。默认创建的是堆表。堆表（heap CREATE TABLE heapTable( a int, b text ) DISTRIBUTED BY (a); 创建⼀个追加表（CREATE TABLE 命令的 WITH ⼦句来指定表存储模型）： CREATE TABLE aoTable( a int, b text ) WITH (appendonly=true) DISTRIBUTED BY (a); 4.5 表存储⽅式（⾏存储、列存储）

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

点时间会很长 – 系统表（pg_class,pg_attribute）太大，影响系统工作效率 – 系统元数据检查pg_checkcat等工具运行时间比较长物理模型经验分享物理模型对于系统性能有很大影响，因此需要我们特别关注。以下来自于在某大型银行的使用经验：行存储和列存储： • 避免过多使用列存储的原因是防止小档数过多。 • 列存储能够提升查询性户号，这个可以提高关联条件的命中率，减少关联时数据重分布（主要对大表） • 选用分布键同时考虑数据平均分布（一个例子，日志号不是最好的分布键，大量的空值导致资料倾斜）物理模型经验分享（续）分区表使用： • 不建议使用二级分区，二级分区不便于管理，而且Parser效率较低； • 二级分区可以用一级分区+Bitmap方式替代，例如按照“发生日期”做分区，然后在机构字段上将bitmap索引

0 码力 | 41 页 | 1.42 MB | 1 年前
3

共 14 条前往

页

分类

语言

格式