散列 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 精粹文集

分布式事务两阶段提交”， Greenplum 还研发了非常多的高级数据分析管理功能和企业级管理模块，如下这些功能都是 Postgresql 没有提供的： ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror 镜像保护机制数据库并行计算而言， Mapreduce 的数据在计算前未经整理和组织（只是做了简单数据分块，数据无模式），而 MPP 预先会把数据有效的组织（有模式），例如：行列表关系、Hash 分布、索引、分区、列存储等、统计信息收集等，这就决定了在计算过程中效率大为不同： ·MAP 效率对比 Hadoop 的 MAP 阶段需要对数据再解析，而 MPP 数据库则会直接取行列表，效率高。 Hadoop 按分布，因此，MAP 过程的并行化程度低；MPP 数据库按照数据记录拆分和 Hash 分布，粒度更细，数据分布在所有节点中非常均匀，并行化程度很高。 HadoopHDFS 没有灵活的索引、分区、列存储等技术支持，而 MPP 通常利用这些技术大幅提高数据的检索效率。 ·MAShuffle 效率对比 Hadoop Shuffle 对比 MPP 计算中的重分布 -- 由于 Hadoop 数据与节点的无关性，Shuffle

0 码力 | 64 页 | 2.73 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

库表使用易出现问题 Ø 表定义过大 Ø 表类型单一 Ø 表的散列键不恰当 Ø 分区表的分区键性能不佳 • 加载易出现问题 Ø 文件加载出现特殊字符 Ø 数据校验标准问题 35 Greenplum开发规范业务库表设计规范 • GP中表的范围 Ø 最大时间为年表 Ø 数据量小，可用单表 • 多种表类型 Ø 堆表（选好常用列作为三列键） Ø 分区表（按照 yyyymmdd 分区，建议都添加分区，建议都添加 datenum int8） Ø append表 Ø 列存储表 Ø 多种表类型结合 • 表的命名 Ø GP内所有名称都小写 Ø table_name命名要符合命名规则，做到见名知义 36 Greenplum开发规范用户与权限规范 • 四层授权保保障 Ø 角色 role ：管理数据库内对象权限 Ø 用户 user ：用户认证权限 Ø pg_hba.conf ：实例权限配置文件

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

primary、unique 、check、not null、foreign 等约束，主键约束必须使⽤ hash 策略来分布表数据存储，不能在同⼀个表同时使⽤主键和唯⼀约束，并且指定了primary 和 unique 的列必须全部或者部分包含在分布键中。创建表检查约束 CREATE TABLE products( product_no integer, name text, price numeric CHECK Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 83/206 ); 唯⼀约束：唯⼀约束确保存储在⼀张表中的⼀列或多列数据数据⼀定唯⼀。要使⽤唯⼀约束，表必须使⽤ Hash 分布策略，并且约束列必须和表的分布键对应的列⼀致（或者是超集） CREATE TABLE products( product_no integer UNIQUE, name text, DISTRIBUTED BY (product_no); 主键约束：主键约束是唯⼀约束和⾮空约束的组合。要使⽤主键约束，表必须使⽤ Hash 分布策略，并且约束列必须和表的分布键对应的列⼀致（或者是超集）。如果⼀张表指定了主键约束，分布键值默认会使⽤主键约束指定的列。 CREATE TABLE products( product_no integer PRIMARY KEY, name text, price

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

...................................................................................... - 374 - 行存与列存 .................................................................................................. ...................................................................................... - 402 - 分区和列存的文件数 .............................................................................................. QUEUE adhoc WITH (MAX_COST=-1.0, MEMORY_LIMIT='2GB'); 可以使用ALTER RESOURCE QUEUE命令改变查询优先级。例如，设置一个资源队列的优先级为最低级别： =# ALTER RESOURCE QUEUE webuser WITH (PRIORITY=MIN); 删除资源队列使用DROP RESOURCE

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum上云与优化

与其他技术的对比？为什么上云？ 2016Postgres中国用户大会 ApsaraDB for GP的定位 ApsaraDB for GP = 简单、高效解决大数据分析需求 MPP + 列存压缩复杂SQL + 查询优化器本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 GP vs. RDS? Select count(*) from RDS? Select count(*) from customer where status = valid group by city 列存与压缩原理举例 ….. ….. Name Id status city 列存块 ….. 列存块列存 ≈索引 + index only 2016Postgres中国用户大会 GP vs. Hadoop? Orca优化器 SQL Runtime 应用服务器 Tableau 应用服务器 2016Postgres中国用户大会 ApsaraDB for GP的定位 ApsaraDB for GP = 简单、高效解决大数据分析需求 MPP + 列存压缩复杂SQL + 查询优化器本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 ApsaraDB for GP的内核优化 2016Postgres中国用户大会

0 码力 | 26 页 | 1.13 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

base的，统计信息的准确性对查询计划的优劣有很大影响；  对于字段数较多的表，可关闭gp_autostate_mode (on_no_stats=>none)，仅对必要列执行Analyze，只在结果中返回的列无需收集统计信息；  对于频繁创建表删表的系统，可关闭gp_autostate_mode(on_no_stats=> on_change) ，数据变化量达到一定阀值才收集统计信息；内对象不要超过10 0000个  最佳实践是出于对系统性能和稳定性因素建议对pg_class 所维护的对象数进行约束  减少对象数的方法： – 提高分区粒度 – 避免大范围使用列存储  pg_class对象数如果不进行约束，可能会产生以下问题： – gprecoverseg –F效率低，数据库实例修复如果增量同步失败，我们一般会建议使用gprecoverseg –F进行全量同物理模型对于系统性能有很大影响，因此需要我们特别关注。以下来自于在某大型银行的使用经验：行存储和列存储： • 避免过多使用列存储的原因是防止小档数过多。 • 列存储能够提升查询性能，对于更新和全字段类操作性能反而会下降 • 对于少数频繁查询的宽表，例如交易表、帐户表、客户表等采用列存储，其它表采用行存储数据压缩： • 在金融业，行压缩的数据压缩比在1:6左右，一般采用zlib5级压缩

0 码力 | 41 页 | 1.42 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

MPP Scatter/Gather 流处理在线系统扩展任务管理服务加载 & 数据联邦高速数据加载近实时数据加载任意系统数据访问存储 & 数据访问混合存储引擎（行存&列存）多种压缩，多级分区表索引（B树，位图，GiST）安全性语言支持标准SQL支持，SQL 2003 OLAP扩展支持 MapReduce 扩展编程语言 (Python,R, Confidential–Inter nal Use Only 多态存储列存储更适合压缩查询列子集时速度快不同列可以使用不同压缩方式: gzip (1- 9), quicklz, delta, RLE 访问多列时速度快支持高效更新和删除 AO 主要为插入而优化表‘SALES’ 11月列存储行存储 7月一年前二年前外部表历史数据和不常访问的数

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储表‘SALES’ 表‘SALES’ ■ 更适合压缩 ■ 查询部分列时速度快 ■ 不同列可以使用不同压缩方式 amount cust_id 表 orders 14 Pivotal Confidential–Internal Use Only Segment 1A Segment 1B Confidential–Internal Use Only 多态存储 • 列存储更适合压缩 • 查询列子集时速度快 • 不同列可以使用不同压缩方式: zstd, gzip (1-9), quicklz, delta, RLE • 访问多列时速度快 • 支持高效更新和删除 • AO 主要为插入而优化表‘SALES’ 11月列存储行存储 7月一年前二年前外部表 • 历史数据和不常访问的数

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Greenplum 6新特性: 在线扩容工具GPexpand剖析

字段名描述 localoid 表的OID policytype 分布类型 ‘p’ 分区 ‘r’ 复制表 numsegments 表分布在多少个节点上 diskkey 分布列的序号 distclass 分布列的操作类 GPExpand简介与具体用法 • GPExpand是Greenplum的扩容工具，可以为集群增加新的节点来支持更大容量的存储和更高的计算能力。 • 随着Green and的互斥改进与实现 • 数据重分布的优化 – 扩容后，新节点没有数据，查询Plan如何做？？？ ▪ 在Greenplum 5和之前的版本里会将所有的表改成随机分布，然后再ALTER成按列分布 ▪ Greenplum 6里引入了numsegments ▪ Numsegments描述了该表连续分布的segment数量，默认与集群大小一致。对每个表执行操作时也会按照numsegment值分配Gang

0 码力 | 37 页 | 1.12 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

上的几块，且支持多级分区。 Greenplum 目前支持的分区方法有： l 范围分区：根据某个列的时间范围或者数值范围对数据进行分区。譬如以下 SQL 将创建一个按天分区的分区表，将 2021-01-01 到 2022-01-01 这一年的数据分成 366 个分区: l 列表分区：按照某个列的数值列表，将数据分到不同的分区。譬如以下 SQL 将根据性别创建一个分区表，共有 3 个分区: 库中的事实数据，不适合做频繁的更新、删除操作。 l Append-Optimized, Column Oriented 表：即 AOCO 表，在 Append-Optimized 的基础之上按列进行存储，可对其使用不同的压缩算法进行压缩，对聚合查询有着天然的优势。 l 外部表：外部表的数据存储在外部，Greenplum 仅管理其元数据，支持多种外部数据源，例如 S3、HDFS、文件、Gemfire，以及多种数据格式譬如

0 码力 | 31 页 | 3.95 MB | 1 年前
3

共 15 条前往

页

分类

语言

格式