逻辑模型 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum机器学习⼯具集和案例

generate_series(1,30:: bigint) AS ID) foo DISTRIBUTED BY (id); 2017.thegiac.com 2017.thegiac.com • 适合模型应用于数据子集的场景，并行执行效率非常高 • 如果节点间数据通讯，使用适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 PostgreSQL, HAWQ) 底层抽象层 (数组操作、类型转换、数值计算库等) 数据库内建函数⽤用户接⼝口⾼高层抽象层 (迭代控制器器) 内循环函数 (实现机器器学习逻辑) Python SQL C++ MADlib 架构 2017.thegiac.com • 是一种由搜索引擎根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，以Google 2017.thegiac.com ⽤用户案例例 1 Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测模型不不够精准，需要更更好的邮件营销策略略 ● 现有数据分析流程繁琐，速度慢，有很多⼿手动步骤，易易出错客户数据科学解决⽅方案 ● 某⼤大型跨国多元化传媒和娱乐公

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum 精粹文集

义函数（UDF）（我个人是 Python 和 C 的 fans，后续章节与大家分享）。这些自定义函数部署到 Greenplum 后可用充分享受到实例级别的并行性能优势，我们强烈建议用户将库外的处理逻辑，部署到用 MPP 数据库的 UDF 这种 In-Database 的方式来处理，你将获得意想不到的性能和方便性；例如我们在某客户实现的数据转码、数据脱敏等，只需要简单的改写原有代码后部署到 GP Madlib（开源挖掘算法）、 SAS algorithm、R 都是通过 UDF 方式实现在 Greenplum 集群中分布式部署，从而获得库内计算的并行能力。这里可以分享的是，SAS 曾经做过测试，对 1 亿条记录做逻辑回归，采用一台小型机耗时约 4 个多小时，通过部署到 Greenplum 集群中，耗时不到 2 分钟就全部完成了。以 GPEXT 为例，下图展现了 Solr 全文检索在 Greenplum 中的并 Append-only 的特性，SQL-On-Hadoop 大多不支持数据局部更新和删除功能 (update/delete)；例如 Spark 计算时，需要预先将数据装载到 DataFrames 模型中；基本上都缺少索引和存储过程等特征除 HAWQ 外，大多对于 ODBC/JDBC/DBI/OLEDB/.NET 接口的支持有限，与主流第三方 BI 报表工具的兼容性不如 MPP 数据库

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

不同节点间移动。 Confidential │ ©2021 VMware, Inc. 12 除了支持数据在不同的 segment 节点上水平分布以外，还支持在单个节点按照不同的标准进行分区，将单个节点上一个逻辑上的大表分割成物理上的几块，且支持多级分区。 Greenplum 目前支持的分区方法有： l 范围分区：根据某个列的时间范围或者数值范围对数据进行分区。譬如以下 SQL 将创建一个按天分区的分区表，将 Text、CSV、Avro、Parquet 等。多态存储 Confidential │ ©2021 VMware, Inc. 14 多态存储如上所示，可以根据数据访问频率以及数据量这两个维度来选择不同的存储方式，并且在逻辑上仍然是同一张表。 15 Confidential │ ©2021 VMware, Inc. Greenplum 分布式查询优化器 Motion Confidential │ ©2021 VMware Confidential │ ©2021 VMware, Inc. Greenplum 分布式执行器 QD/QE/火山模型/Gang Confidential │ ©2021 VMware, Inc. 25 Greenplum，或者说 PostgreSQL 是进程模型，而不是类似于 MySQL 的线程模型。主进程 postmaster 是整个数据库实例的总控进程，负责启动和关闭数据库实例。当客户端和 Coordinator

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

....................................................................................... - 373 - 数据模型 .................................................................................................. 效果，编者也实现了自动切换命令，当 Master 出现无法正常工作的故障时，自动激活 Standby 来接管 Master 的任务。下面的流程图，是编者实现的 Master 和 Standby 自动切换的逻辑流程图，可以供读者参考，不过，编者不方便公开实现的代码。 Greenplum Database 管理员指南 V6.2.1 版权所有：Esena(陈淼 +86 18616691889) 编写：陈淼数据是如何存储的要理解 GP 是如何在不同的 Instance 之间存储数据的，可以参考下图所示的简单逻辑关系，主键(Primary Key)被使用黑体标记，外键(Foreign Key)关系通过连线标明。用数据仓库的术语来说，这种数据模型称为星型模型。在这种数据库模型下，Order 表通常被称为事实表(Fact Table)，其他表(Customer、Vendor、Product)被称

0 码力 | 416 页 | 6.08 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

postgresql体系结构 11 greenplum体系架构 postgresql体系结构 • pg结构组成 Ø 连接关系系统 Ø 编译执行系统 Ø 存储执行系统 Ø 事务系统 Ø 系统表 • pg逻辑和物理结构 Ø instance实例 - user - tablesapce Ø database - schema - table,view,function - data row Ø 物理文件 Greenplum现状说明三大Greenplum集群关系 • 数据来源不同 • 数据处理不同 • 时效速度不同 • 体系架构相同 • 年表划分相同 • 平台整体定位 • 定位不同，多集群配合形成逻辑大集群 20 Greenplum现状说明 Greenplum多层业务规划图 21 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范全量，id列增量，date列增量 Ø datax,csv,load,copy Ø 数据同步结果确认与显示 • 数据同步方式 Ø gpfdist+外部表： UMGW大表 Ø db_sync同步程序：底层库 + 同步逻辑 + Django界面 Ø 临时同步需求： datax , copy 29 Greenplum运维体系数据库数据传输与同步-db_sync 30 Greenplum运维体系数据库数据传输与同步-db_sync

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

的表格创建类似于 postgresql，由于 udw 采⽤ mpp 数据，创建表格的时候可以选择不同的数据分布策略，不同的存储⽅式等等。创建表格的时候可以定义下⾯信息：数据类型表约束数据分布策略表存储模型分区策略外部表：udwfile、udwhdfs 下⾯分别根据上⾯的可选信息对表格设计进⾏分析。 4.1 数据类型数据类型开发指南 Greenplum数据仓库 UDW Copyright 2012-2021 UCloud 优刻得 85/206 备注：更多关于分区策略的的使⽤可以通过命令⾏执⾏\h create table 或者 \h alter table 查看 4.4 表存储模型（表存储模型（heap表和表和appendonly表）表） UDW ⽀持两种类型的表：堆表（heap table）和追加表（Appendonly table）。默认创建的是堆表。堆表（heap CREATE TABLE heapTable( a int, b text ) DISTRIBUTED BY (a); 创建⼀个追加表（CREATE TABLE 命令的 WITH ⼦句来指定表存储模型）： CREATE TABLE aoTable( a int, b text ) WITH (appendonly=true) DISTRIBUTED BY (a); 4.5 表存储⽅式（⾏存储、列存储）

0 码力 | 206 页 | 5.35 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

Greenplum 数据库或打开任何其他外部连接。集成分析：改进后的全新分析接口一直以来，客户都能在 Greenplum 中做高级分析，无论是提供将应用逻辑向下推送至数据所在位置的方法，执行分析功能，还是以大规模并行方式构建数据模型，都可以实现。Greenplum 支持适用于数据挖掘和数据科学工作的最全面、最先进的分析程序包和扩展。Greenplum 还针对最受欢迎的 Python 和等 R 语言算法库和程序包。此外，Greenplum 还支持最新版 Apache MADlib（可用 SQL 进行机器学习、深度学习和图分析），它支持高并行和基于 GPU 的深度学习模型训练，内置于集群硬件中的 GPU，能帮助 Greenplum 6 的用户获得超过 CPU 2 个数量级的性能加速，尤其对于可预测的分析用例和图像识别，这些功能将展现奇效。支持在 Apache Solr

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

GREENPLUM 5：新一代数据平台集成分析：改进后的全新分析接口一直以来，客户都能在 Pivotal Greenplum 中做高级分析，无论是提供将应用逻辑向下推送至数据所在位置的方法，执行分析功能，还是以大规模并行方式构建数据模型，都可以实现。Greenplum 5 支持适用于数据挖掘和数据科学工作的最全面、最先进的分析程序包和扩展。 Greenplum 5 还针对最受欢迎的 Python

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum 架构概览

和 Master- Slave 有何区别? 在 Master-Slave 模型下，Master 和 Slave 拥有相同的数据，并且 Master 是存储和处理数据的唯⼀⼊⼝，Slave 仅复制 Master 的数据。⽐如 MySQL 的主从模型、Redis 的主从模型在 Master-Segment 模型下，⾸先 Master 节点不存储数据，其次就是数据将会以分⽚的⽅式存储在多个 Segment 节点中。这⾥可以类⽐ Redis Cluster，只不过 Redis Cluster 是去中⼼化的。在 Master-Segment 模型中通常也会包含 Master-Slave 模型，也就是增加数据副本，以实现⾼可⽤简单地来说，Master-Slave 主要进⾏数据复制（冗余），⽽ Master-Segment 则会同时进⾏数据分区（⽔平扩展）和复制（冗余）分区与分⽚基于⾏的存储⽅式，也可以选择基于列的存储⽅式，并且⽀持诸如 S3、HDFS 等外部存储 GP 基本查询流程 PostgreSQL 进程模型 PostgreSQL（以下简称 PG）采⽤的是经典的 C/S 模型，即 Client-Server 模型，同时使⽤多进程的⽅式⽀持并发查询与写⼊。也就是说，每当有⼀个客户端连接⾄ PG 时，就会有⼀个⼦进程被创建出来。postmaster 进程和

0 码力 | 1 页 | 734.79 KB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

Confidential–Internal Use Only 卓越的OLAP特性列式存储分区、压缩高级特性递归查询、窗口函数集成分析多格式、多语言 Madlib: 机器学习数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器成熟稳定完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储表‘SALES’ 优化分布式大数据系统中特别复杂的查询 18 Madlib: 迭代并行模型训练 Master model = init(…) WHILE model not converged model = SELECT model.aggregation(…) FROM data table ENDWHILE 模型存储过程 … 广播 Segment 2 Segment Segment n … Transition 函数操作一小批数据并更新模型状态 1 Merge 函数 2 Final函数 3 Segment 1 19 Madlib: PageRank性能 Greenplum集群: ● 1 master ● 4*6 segment 50亿条链接 (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log

0 码力 | 52 页 | 4.48 MB | 1 年前
3

共 17 条前往

页

分类

语言

格式