I/O流类型 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum数据仓库UDW - UCloud中立云计算服务商

UDW中中Json类型类型 Json相关操作 Json操作举例 Json相关函数 Json创建函数 Json处理函数接⼊第三⽅接⼊第三⽅ BI ⼯具⼯具⼀、 UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例使⽤案例案例⼀利⽤ logstash+Kafka+UDW 对⽇志数据分析案例⼆基于UDW实现⽹络流分析 PXF 扩展 Copyright © 2012-2021 UCloud 优刻得 5/206 概览概览产品架构快速上⼿操作指南访问UDW数据仓库数据导⼊开发指南 udw优化指南表膨胀 UDW中Json类型接⼊第三⽅ BI ⼯具 UDW 使⽤案例 Pxf 扩展功能迁移数据使⽤ pg_dump 使⽤ pxf 外部表 FAQs 数据仓库价格概览 Greenplum数据仓库 UDW Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 11/206 计算密集型 dc1.8xlarge 28核 168G 3800G(SSD) 选择数据仓库类型：Greenplum 是 EMC 开源的数据仓库产品、Udpg 是基于 PostgreSQL 开发的⼤规模并⾏、完全托管的 PB 级数据仓库服务。选择节点个数：UDW 是分布式架构、所有节点数据都是双机热备

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

开放式系统：在通用系统和开放源软件的基础上创建前提条件 – 硬件：基于开放式标准硬件 – 软件：Postgres和Greenplum – 体系架构：海量并行处理体系，针对商务智能/数据仓库进行了优化，解决了所有数据流瓶颈问题 Greenplum数据引擎全球最强大的分析数据仓库海量并行查询 • 可以比以往更快地获取查询结果 • 在数据增长的同时确保高性能分析统一的分析处理功能 • 为数据仓库、市场、 “完全不共享”体系 Greenplum体系：并行数据流 21 • 通用并行数据流引擎可以通过本地方式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近计算内核 Greenplu m并行数据流引擎对本地磁盘进行直接的高性能访问 gNet 采用新的编程模型，在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 MapReduce Greenplum MapReduce的优势 • 处理在任何地点存储的任何类型的数据 • 将SQL的普遍性与MapReduce的灵活编程模式结合起来 • 针对业务关键分析功能提供企业级集成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据

0 码力 | 45 页 | 2.07 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

Ø事务小，频率高，并发高 • 过去的数据 —— OLAP Ø非实时（T+1，或小时级），离线系统，分析决策 Ø事务大，频率相对小，并发低 • 未来的数据 —— 趋势分析 Ø非实时，离线+在线流系统，趋势分析 Ø算法分析，持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态（注册数，活跃数，并发量，峰值） Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 greenplum体系架构 greenplum的体系结构 • greenplum的架构特点 Ø MPP ShareNothing 海量并行处理+完全无共享 Ø cpu计算能力 Ø 数据从Disk上的I/O吞吐性能 Ø master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载（gpfdist+外部表，每小时4TB+） Ø 多任务冲突 • 库表使用易出现问题 Ø 表定义过大 Ø 表类型单一 Ø 表的散列键不恰当 Ø 分区表的分区键性能不佳 • 加载易出现问题 Ø 文件加载出现特殊字符 Ø 数据校验标准问题 35 Greenplum开发规范业务库表设计规范 • GP中表的范围 Ø 最大时间为年表 Ø 数据量小，可用单表 • 多种表类型 Ø 堆表（选好常用列作为三列键） Ø 分区表（按照 yyyymmdd

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 精粹文集

是如何的方便，另外，开发新的功能模块、新的数据类型、新的索引类型等等非常方便，只要按照 API 接口开发，无需对 PG 重新编译。 PG 中 contrib 目录下的各个第三方模块，在 GP 中的 postgis 空间数据库、R、Madlib、pgcrypto 各类加密算法、gptext 全文检索都是通过这种方式实现功能扩展的。 4) 在诸如 ACID 事物处理、数据强一致性保证、数据类型支持、独特的 MVCC MAP->Shuffle->Reduce 过程中通过文件来交换数据，效率很低，MapReduce 要求每个步骤间的数据都要序列化到磁盘，这意味着 MapReduce 作业的 I/O 成本很高，导致交互分析和迭代算法开销很大，MPP 数据库采用 Pipline 方式在内存数据流中处理数据，效率比文件方式高很多。总结以上几点，MPP 数据库在计算并行度、计算算法上比 Hadoop 更加 SMART，效率更高；在客户现场的测试对比中，Mapreduce 以上，并带有掉电保护功能，RAID 卡应为多通道，目前接触的硬件厂商中，单通道支持的最大磁盘数为 16 块） ·硬盘尽量选用 SAS 盘，从实践经验看，硬盘故障是 Greenplum 集群中最为常见的故障类型，而 SAS 盘相比 SATA 盘在性能和稳定性上都明显的高于 SATA 盘。 ·RAID 卡一定要带 cache，否则做完 RAID 后写的性能会非常差，曾遇到一客户，把 GP 迁移到更大容量、更多磁盘的机器后，集群

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

....................................................................................... - 144 - 索引类型 .................................................................................................. ............................................................... - 330 - gpbackup 和 gprestore 包含的对象类型 ...................................................... - 331 - 执行一个 gpbackup 备份 ................. ....................................................................................... - 392 - 数据类型 ..................................................................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

Parallel Processing ⼯工作原理理 2017.thegiac.com C API (Greenplum, PostgreSQL, HAWQ) 底层抽象层 (数组操作、类型转换、数值计算库等) 数据库内建函数⽤用户接⼝口⾼高层抽象层 (迭代控制器器) 内循环函数 (实现机器器学习逻辑) Python SQL C++ MADlib thegiac.com MADlib vs. Spark: 不不同的产品，侧重点不不同 MADlib Spark 算法库易用性需要编程查询优化成熟度稍差内存和流处理通过 Gemfire SQL 语法支持需要提升磁盘数据不是核心焦点并发性能不是核心焦点大数据关联不是核心焦点 2017.thegiac.com ✓ 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动化 X 代码复杂冗余，很多数据类型转换 ✓ 代码更更精简，更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客户商业影响 2017.thegiac.com 用户案例例2

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

5：新一代数据平台作为能够独立于专用硬件加速提供高性能的纯软件数据平台，Greenplum 可根据客户需求在任何位置运行。借助这种“不受限于基础架构”的方法，可以在本地或多云环境（私有云或公有云）中部署同一类型的分析数据库。无论在商业化的 Pivotal Greenplum 或是开源的 Greenplum Database 中，这种不受限于基础架构的方法的大部分优势都具有同样强大的作用。在 Greenplum Presser，Data Warehousing with Greenplum:Open Source Massively Parallel Data Analytics（美国加利福尼亚州塞瓦斯托波尔：O'Reilly Media，2017年），71-76。 2.同上，71-76。 3.同上，71-76。 4.同上，71-76。 pivotal.io/cn 白皮书 8 © Copyright 改进了监控查询活动及其所用资源的方式。它可在查询运行过程中监控并检测内存、CPU 和磁盘 I/O 偏差。随后，Workload Manager 会在查询使用的某项资源超过已定义阈值时记录日志，并可根据规则定义在必要时终止超过规定资源限额的查询。规则可按一天中的时间和一周中的日期编写，这样各种不同类型的工作负载（例如 ETL 和报告处理）都能不间断运行。架构化查询语言性能提升 Pivotal

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum 编译安装和调试

link openssl --force $ CPPFLAGS="-I/usr/local/include/ -I/usr/local/opt/openssl/include" \ LDFLAGS="-L/usr/local/lib -L/usr/local/opt/openssl/lib" \ CFLAGS="-O0 -g3 -ggdb3" \ ./configure --with-perl lockfile paramiko setuptools epydoc 编译 Greenplum Database 源代码，假定安装到 $HOME/gpdb.master 目录下 $ CFLAGS="-O0 -g3 -ggdb3" \ ./configure --with-perl --with-python --with-libxml --enable-debug --enable-cassert em_*** ● 数据库的日志文件：进入 master （segment 的日志类似）的日志目录（例如 /data/master/gpseg-1/pg_log/) 查看日志。这里面有2种类型的日志： ○ startup.log ○ gpdb-.csv 2.2.3 初始化 master 数据库失败手动执行initdb查看详细错误信息，然后分析具体错误信息采取相应错误。不同的版本可

0 码力 | 15 页 | 2.07 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

多级容错机制无共享大规模并行处理先进的查询优化器多态存储系统客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构并行数据流引擎高速软数据交换机制 MPP Scatter/Gather 流处理在线系统扩展任务管理服务加载 & 数据联邦高速数据加载近实时数据加载任意系统数据访问存储 & 数据访问混合存储引擎（行存&列存）一个数据节点可以配置多个节点实例（Segment Instances) • 节点实例并行处理查询（SQL） • 数据节点有自己的CPU、磁盘和内存（Share nothing） • 高速Interconnect处理持续数据流（Pipelining） Interconnect Segment Host Segment Instance Segment Instance Segment Instance Segment Instance

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum 排序算法

● 假设顺串(长度为L)分布在K个文件中，顺串合并时需要K个输入缓冲区和1个输出缓冲区，每次选取K个缓冲区的最小值，输出到输出缓冲区。最后，输出缓冲区输出的顺串长度为L*K ● 算法复杂度 O(K* (L*K)) 顺串合并 1 10 30 44 56 . . . 6 8 34 64 66 . . . 7 11 12 13 17 . . . 22 55 67 77 79 . . . 结构体排序节点类型字段说明 ScanState ss 查询状态信息 bool randomAccess 排序后的元组是否需要随机访问 bool bounded 是否是TopK查询 int64 bound TopK查询中K的值 bool sort_Done 排序步骤是否完成 GenericTupStore* tuplesortstate 根据排序算法类型，指向Tuplesortstate

0 码力 | 52 页 | 2.05 MB | 1 年前
3

共 34 条前往

页

分类

语言

格式

Greenplum数据仓库UDW - UCloud中立云计算服务商

Greenplum 新一代数据管理和数据分析解决方案

并行不悖- OLAP 在互联网公司的实践与思考

Greenplum 精粹文集

Greenplum Database 管理员指南 6.2.1

Greenplum机器学习⼯具集和案例

Pivotal Greenplum 5：新一代数据平台

Greenplum 编译安装和调试

Greenplum数据库架构分析及5.x新功能分享

Greenplum 排序算法