流 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum数据仓库UDW - UCloud中立云计算服务商

UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例使⽤案例案例⼀利⽤ logstash+Kafka+UDW 对⽇志数据分析案例⼆基于UDW实现⽹络流分析 PXF 扩展扩展配置 PXF 服务创建 EXTENSION 读写 HDFS ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 2012-2021 UCloud 优刻得 176/206 UDW 使⽤案例使⽤案例案例⼀案例⼀利⽤利⽤ logstash+Kafka+UDW 对⽇志数据分析对⽇志数据分析 Logstash 是⽬前⽐流⾏、使⽤较多的⽇志收集和管理系统，Kafka也是企业常⽤的分布式发布-订阅消息系统，UDW（UCloud Data Warehouse）是⼤规模并⾏处理数据仓库产品，下⾯介绍⼀些利⽤ logstash+Kafka+UDW 接⼊第三⽅的BI系统，请参考我们的⽂档： UDW接⼊第三⽅BI系统案例⼆案例⼆基于基于UDW实现⽹络流分析实现⽹络流分析背景介绍背景介绍⽹络流分析主要包括对⽤⼾的⽹络流数据进⾏存储和多维度的分析两部分。⽤⼾的⽹络流的数据每天产⽣400G左右，数据保留10天。针对⽹络流数据的分析主要包含流量分析、包量分析、 TCP延迟分析、HTTP状态码分析、TCP重传分析等。 UDW 使⽤案例

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

开放式系统：在通用系统和开放源软件的基础上创建前提条件 – 硬件：基于开放式标准硬件 – 软件：Postgres和Greenplum – 体系架构：海量并行处理体系，针对商务智能/数据仓库进行了优化，解决了所有数据流瓶颈问题 Greenplum数据引擎全球最强大的分析数据仓库海量并行查询 • 可以比以往更快地获取查询结果 • 在数据增长的同时确保高性能分析统一的分析处理功能 • 为数据仓库、市场、 “完全不共享”体系 Greenplum体系：并行数据流 21 • 通用并行数据流引擎可以通过本地方式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近计算内核 Greenplu m并行数据流引擎对本地磁盘进行直接的高性能访问 gNet

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

多级容错机制无共享大规模并行处理先进的查询优化器多态存储系统客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构并行数据流引擎高速软数据交换机制 MPP Scatter/Gather 流处理在线系统扩展任务管理服务加载 & 数据联邦高速数据加载近实时数据加载任意系统数据访问存储 & 数据访问混合存储引擎（行存&列存）一个数据节点可以配置多个节点实例（Segment Instances) • 节点实例并行处理查询（SQL） • 数据节点有自己的CPU、磁盘和内存（Share nothing） • 高速Interconnect处理持续数据流（Pipelining） Interconnect Segment Host Segment Instance Segment Instance Segment Instance Segment Instance

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Pivotal HVR meetup 20190816

天天拍车是国内领先的二手车竞拍平台，现有核心业务是二手车线上竞拍。同时，天天拍车还提供上门检测、线上竞拍、包办手续等一站式二手车交易服务。天天拍车运用互联网技术，从根本上解决了二手车跨各区域成交和流通效率低下等问题，持续推进行业升级变革。全国二手车经销商传统的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在线竞拍系统，在手机端就能轻松竞拍到全国海量优质车源，收车效率和运营效率得

0 码力 | 31 页 | 2.19 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

Ø事务小，频率高，并发高 • 过去的数据 —— OLAP Ø非实时（T+1，或小时级），离线系统，分析决策 Ø事务大，频率相对小，并发低 • 未来的数据 —— 趋势分析 Ø非实时，离线+在线流系统，趋势分析 Ø算法分析，持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态（注册数，活跃数，并发量，峰值） Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

thegiac.com MADlib vs. Spark: 不不同的产品，侧重点不不同 MADlib Spark 算法库易用性需要编程查询优化成熟度稍差内存和流处理通过 Gemfire SQL 语法支持需要提升磁盘数据不是核心焦点并发性能不是核心焦点大数据关联不是核心焦点 2017.thegiac.com

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum 精粹文集

来交换数据，效率很低，MapReduce 要求每个步骤间的数据都要序列化到磁盘，这意味着 MapReduce 作业的 I/O 成本很高，导致交互分析和迭代算法开销很大，MPP 数据库采用 Pipline 方式在内存数据流中处理数据，效率比文件方式高很多。总结以上几点，MPP 数据库在计算并行度、计算算法上比 Hadoop 更加 SMART，效率更高；在客户现场的测试对比中，Mapreduce 对于单表的计算尚

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

径必须是 Master工作目录的相对路径，或者绝对路径。当COPY数据到STDOUT或从STDIN COPY数据数据时，实际上是GP的Master和客户端之间的数据复制。这样就实现了远程流数据的复制，比如要从一个集群复制少量数据到另一个集群，可以采用如下的命令： $ psql -h src -d srcdb -c 'COPY test TO STDOUT'|psql -h des 进程来完成，wal sender是Primary发送WAL日志的的进程，wal receiver是 Mirror接收WAL日志的进程。在数据发生修改时，记录了数据修改信息的WAL日志，将以流的形式发送给Mirror， Mirror通过重放WAL日志的方式保持与Primary的一致。当GP数据库发现一个Primary失败了，WAL同步将会停止，Mirror将以Primary 的角

0 码力 | 416 页 | 6.08 MB | 1 年前
3

共 8 条前往

页

分类

语言

格式

Greenplum数据仓库UDW - UCloud中立云计算服务商

Greenplum 新一代数据管理和数据分析解决方案

Greenplum数据库架构分析及5.x新功能分享

Pivotal HVR meetup 20190816

并行不悖- OLAP 在互联网公司的实践与思考

Greenplum机器学习⼯具集和案例

Greenplum 精粹文集

Greenplum Database 管理员指南 6.2.1