请求处理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum机器学习⼯具集和案例

thegiac.com MADlib vs. Spark: 不不同的产品，侧重点不不同 MADlib Spark 算法库易用性需要编程查询优化成熟度稍差内存和流处理通过 Gemfire SQL 语法支持需要提升磁盘数据不是核心焦点并发性能不是核心焦点大数据关联不是核心焦点 2017.thegiac.com 基于API日志的⾦金金融产品⽤用户分析 2017.thegiac.com 问题 ● 更更好地理理解不不同种类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ● 对实时API请求进⾏行行分类和安全检测 ● 数据量量⼤大，现有数据分析团队缺乏技能客户数据科学解决⽅方案 ● 某⼤大型跨国⾦金金融服务公司 ● 移动应⽤用 API 分析 ● 会话识别 API 请求⽇日志抽取会话特征根据原始特征对用户聚类验证聚类结果评分对API请求结合超时和 K-means聚类处理理主题模型对主题进⾏行行K- means聚类 S 标记回话⼈人⼯工审查新会话建模过程 2017.thegiac.com 会话识别 API 请求⽇日志对API请求结合超时和 K-means聚类处理理

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum 精粹文集

据，数据在爆发式增长，这些海量数据急需新的计算方式，需要一场计算方式的革命。传统的主机计算模式在海量数据面前，除了造价昂贵外，在技术上也难于满足数据计算性能指标，传统主机的 Scale-up 模式遇到了瓶颈， SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于 GFS 分布式文件系统，另外一篇主机，并且成本很低，横向的扩展性还可带来系统良好的成长性。问题来了，在 X86 集群上实现自动的并行计算，无论是后来的 MapReduce 计算框架还是 MPP（海量并行处理）计算框架，最终还是需要软件来实现，Greenplum 正是在这一背景下产生的，借助于分布式计算思想，Greenplum 实现了基于数据库的分布式数据存储和并行计算（GoogleMapReduce Postgresql? 这个问题大致引申出两个问题： 1) 为什么不从数据库底层进行重新设计研发？所谓术业有专攻，就像制造跑车的不会亲自生产车轮一样，我们只要专注在分布式技术中最核心的并行处理技术上面，协调我们下面的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像车轮一样，经过几十年磨砺，数据库引擎技术已经非常成熟，大可不必去重新设计开发，而且把数据库底层交给其它专业化组织来开

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum 架构概览

实例 Master-Segment 和 Master- Slave 有何区别? 在 Master-Slave 模型下，Master 和 Slave 拥有相同的数据，并且 Master 是存储和处理数据的唯⼀⼊⼝，Slave 仅复制 Master 的数据。⽐如 MySQL 的主从模型、Redis 的主从模型在 Master-Segment 模型下，⾸先 Master 节点不存储数据，其次就是数据将会以分⽚的⽅式存储在多个 Postmaster 进程发起连接请求 PG fork 出⼀个 postgres 进程与该客户端建⽴连接，postmaster 进程不再处理与该客户端的相关请求 postgres 进程接收客户端的请求，处理并返回结果。当然，响应需要经过 libpq 库的处理基本查询流程 Query Dispatcher 当 client 向 Master 发起查询请求时，Master 节点上的 postmaster 进程 QD 进程会对收到的查询请求进⾏处理，包括解析原始查询语句、优化器优化以及⽣成分布式查询计划，然后将查询计划通过 libpq 库发送给其它的 Segment 节点 Query Executor Segment 节点上同样是 PG 进程，所以仍然由 postmaster 进程负责监听端⼝，由 Query Executor（QE 进程）进程处理相关查询 QD 进程将查询计划发送给

0 码力 | 1 页 | 734.79 KB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

Instance ： GP 的计算实例，很多时候也叫 Segment Primary ： GP 的主计算实例 Mirror ： GP 的镜像计算实例 MPP ：大规模并行处理算子：执行计划中的运算操作背景简介多年前，编者翻译了 GP4.2.2 的 AdminGuide，如今，GP 已经历经了无数个版本更新和迭代，编者也有了更多的感悟，放眼 ................................................................................ - 179 - 理解 GP 的查询处理 .................................................................................................. ..................................................................................... - 244 - 错误记录处理 ..................................................................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

Greenplum运维常见问题  Greenplum运维常用命令  Greenplum日常检查和故障处理  Greenplum项目经验分享目录  Greenplum运维常见问题  Greenplum运维常用命令  Greenplum日常检查和故障处理  Greenplum项目经验分享内核参数  通常情况下，内核参数按照GP 发起一个请求时，每个Instance都将FORK子进程并行工作； • 对于并发请求高、面向于复杂的灵活查询的系统，建议每个Segment配置4个或以下Instance，这样来保证每个Instance所需资源，保证系统系统运行稳定性，例如，减少OOM发生的概率； • 对于以批处理、串行工作为主的系统，可以配置到8个Instance，这样可以尽可能的发挥每个 CPU的处理性能。 Vacuum Full相当于碎片整理； Reorganize相当于重建表，数据表对应的文件名（pg_class -> relfilenode)将会发生改变。 Vacuum Full的处理性能非常低，一般情况下不建议采用，可以用Reorganize代替、或者使用AO表；系统表不支持Reorganize操作，因此，需要定期vacuum，例如设置定时作业，每周对所有系统表vacuum

0 码力 | 41 页 | 1.42 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

192 udw优化指南表膨胀表膨胀表膨胀的原因如何避免表膨胀 UDW中中Json类型类型 Json相关操作 Json操作举例 Json相关函数 Json创建函数 Json处理函数接⼊第三⽅接⼊第三⽅ BI ⼯具⼯具⼀、 UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例使⽤案例案例⼀利⽤ logstash+Kafka+UDW Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 6/206 产品架构产品架构数据仓库（UCloud Data Warehouse）是⼤规模并⾏处理数据仓库产品，基于开源的Greenplum开发的⼤规模并发、完全托管的PB级数据仓库服务。UDW可以通过SQL让数据分析更简单、⾼效，为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务分析能⼒。⽀ UDW 的客⼾端⽀持通过 JDBC、ODBC、PHP、Python、命令⾏ Sql 等⽅式访问 UDW 2. Master Node：访问 UDW 数据仓库的⼊⼝接收客⼾端的连接请求负责权限认证处理 SQL 命令调度分发执⾏计划汇总 Segment 的执⾏结果并将结果返回给客⼾端 3. Compute Node： Compute Node 管理节点的计算和存储资源每个 Compute

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

Use Only 平台概况产品特性客户端访问和工具多级容错机制无共享大规模并行处理先进的查询优化器多态存储系统客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构并行数据流引擎高速软数据交换机制 MPP Scatter/Gather 流处理在线系统扩展任务管理服务加载 & 数据联邦高速数据加载近实时数据加载任意系统数据访问 Use Only MPP(大规模并行处理）无共享体系架构从主节点 … 主节点 SQL • 主节点和从主节点，主节点负责协调整个集群 • 一个数据节点可以配置多个节点实例（Segment Instances) • 节点实例并行处理查询（SQL） • 数据节点有自己的CPU、磁盘和内存（Share nothing） • 高速Interconnect处理持续数据流（Pipelining） Only 大规模并行数据加载 • 高速数据导入和导出 – 主节点不是瓶颈 – 10+ TB/小时/Rack – 线性扩展 • 低延迟 – 加载后立刻可用 – 不需要中间存储 – 不需要额外数据处理 • 导入/导出到&从: – 文件系统 – 任意 ETL 产品 – Hadoop 发行版外部数据源 Interconnect ... ... ... ... 主节点查询优化和调度

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

VMware, Inc. 4 Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台，具有良好的弹性和线性拓展能力，内置并行存储、并行通信、并行计算和并行优化功能，兼容 SQL 标准。拥有独特的高效的 ORCA 优化器，具有强大、高效的 PB 级数据存储、处理和实时分析能力，同时支持 OLTP 型业务的混合负载。 Greenplum 分布式数据库简介 5 数据存储分布化是分布式数据库要解决的第一个问题。通过将海量数据分散到多个节点上，一方面大大降低了单个节点处理的数据量，另一方面也为处理并行化奠定了基础，两者结合起来可以极大的提高系统的性能。譬如在 100 个节点的集群上，每个节点仅保存总数据量的 1/100，100 个节点同时并行处理，性能会是单个配置更强节点的几十倍。 Greenplum 不仅仅实现了基本的分布式数据存储，还提供了更高级更灵活的特性，譬如多种分布 Confidential │ ©2021 VMware, Inc. 16 当我们插入数据时，Coordinator 将会根据分布键以及分布策略将数据分布到不同的节点中去。那么在查询时，就需要各个节点将数据处理完毕后发送至 Coordinator 节点并返回给客户端用户。分布式查询优化器 l 对于普通查询，只需要将 Segment 上的数据汇总即可，如果有 filter，则在 segment 上执行条件过滤

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Greenplum分布式事务和两阶段提交协议

查询编译器/ 优化器事务管理器 DDL编译器执行引擎日志和恢复并发控制索引/文件/ 记录管理器缓冲区管理器缓冲区锁表存储管理器存储查询计划对索引、文件和记录的请求页命令事务命令查询、更新用户/ 应用 DDL命令数据库管理员数据、元数据、索引日志页读、写页元数据、统计数据元数据 9 存储介质的类型 ■ Volatile 2PC同样可以应用在单机系统上协调者资源管理器1 资源管理器2 资源管理器3 日志1 日志2 日志3 PREPARE / COMMIT / ROLLBACK 命令参与者读写操作 26 两阶段提交协议需要处理的故障 1. 参与者故障参与者恢复后，根据日志记录来决定重做或者撤销事务T，是否有记录？是否有或者，如果没有，可以询问参与本地事务的管理：创建、提交、状态迁移等 • 加锁和MVCC • 本地事务的死锁检测 • xlog、commit log(CLOG) • 对PREPARE、COMMIT/ABORT PREPARED语句的处理 Greenplum在PG的基础上实现 Greenplum复用PG的实现 33 分布式事务信息在QD和QE之间的同步 MyTmGxact: TMGXACT 分布式事务结构体 • 分布式事务id

0 码力 | 42 页 | 2.12 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

1 新一代数据管理和数据分析解决方案关于Greenplum公司 • Greenplum是一家数据库软件公司，在数据处理和 BI/DW领域，提供容量最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥，加利福尼亚州，美国，成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站： www.greenplum • 安全度 • 查询、报告、分析的数量 • 数据的高度多样性 • 大量定制数据 • 监管要求商务智能/数据仓库发展趋势一切都在增长! 数据仓库工作量：数据膨胀面临的新难题是如何处理大规模数据过去的10年现在 HPC 企业 SME 万亿字节千兆字节兆字节千万亿字节万亿字节千兆字节行业商务智能解决方案的实例政府电信金融服务公民服务海量规模 • 高性价比 • 高效率数据库管理系统（DBMS）的规模/容量 11 需要采用一种新的方法 •“一切皆可商用”：商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘过去Google™ 曾经用来实现信息搜索功能的技术，现在被Greenplum用于数据仓库

0 码力 | 45 页 | 2.07 MB | 1 年前
3

共 24 条前往

页

分类

语言

格式

Greenplum机器学习⼯具集和案例

Greenplum 精粹文集

Greenplum 架构概览

Greenplum Database 管理员指南 6.2.1

Pivotal Greenplum 最佳实践分享

Greenplum数据仓库UDW - UCloud中立云计算服务商

Greenplum数据库架构分析及5.x新功能分享

Greenplum 分布式数据库内核揭秘

Greenplum分布式事务和两阶段提交协议

Greenplum 新一代数据管理和数据分析解决方案