Greenplum Database 管理员指南 6.2.1上都存储一份完整的数据拷贝,复制表是在 6 版 本新引入的数据分布策略,这里需要特别指出,复制表,因为需要在每个 Instance 上存储一份完整的数据,数据量大的事实表不适合选择复制分布这种分布策略,如果这 么做,将会极大的浪费存储空间,同时,未必会带来性能的改善,对于复制表的理解, 应该仅限于:复制表的存在,等于提前把广播做好了,减少了执行计划的复杂度,对于 一些非常小的表,涉及的业务场景追求极致的性能时才考虑,对于通常的分析型场景, 都是批量数据操作和只读查询操 作,另外,AO表不再维护MVCC信息,可以节省一些存储空间,不仅如此,AO表一般还 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 103 - 会选择压缩存储,将可以大大节省存储空间。不过,AO表不适合单行INSERT操作,这 是强烈建议应该避免的操作。 用的必要,可以跳过该部分内容。 举个例子来说,假如有一张分区表,按照月份来分区,而绝大部分的查询只针对最 近几个月的数据来查询,这样就可以通过外部表分区的方式将早期数据以半离线的状态 存储到 GP 集群之外更廉价的存储空间。当对该表进行查询时,通过分区条件对分区进 行过滤,这样可以避免扫描外部表的分区,而当一些查询需要用到外部表分区的数据时, 数据将被从外部存储读取,其性能跟库内的分区相比会有很大的差异,但数据是在线可0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商类型对于数据末尾的空⽩字符将原样保存和处理,但是 CHAR 类型不能满⾜ 这个需求。请参考 CREATE TABLE 命令了解更多相关信息。 使⽤ BIGINT 类型存储 INT 或者 SMALLINT 数值会浪费存储空间。如果数据随时间推移需要扩展,并且数据重新加载⽐较浪费时间,那么在开始的时候就应该考虑使⽤更⼤的数据类型。 4.2 表约束 表约束 udw 表格⽀持 postgresql 的表格约束,拥有 primary、unique 选其中⼏个字段中,需要扫描的数据量很⼩,扫描速度⽐较快。因此,列存储尤其适合在宽表中对部分字段进⾏筛选的场景。 列存储的表必须是追加表(Appendonly table)。 3 压缩 压缩 压缩能够节约存储空间并减少从存储读取的数据⼤⼩,这种⽅法还可以减少磁盘 I/O 量,因此可提⾼查询性能。 4 数据分布 数据分布 UDW表的记录有两种分布策略,分别是哈希分布(DISTRIBUTED BY(key))和随机分布(DISTRIBUTED 130/206 在绝⼤部分传统数据中,索引都能够极⼤地提⾼数据访问速速。然⽽,在像 UDW 数据仓库这样的分布式数据库系统中,索引的使⽤需要更加谨慎。 索引会增加数据库系统的运⾏开销,它们占⽤存储空间并且在数据更新时,需要额外的维护⼯作。请确保查询集合在使⽤您创建的索引后,性能得到了改善(和全表顺序扫描相⽐)。可以使⽤ EXPLAIN 命令来确认索引是否被使⽤。 创建索引时,需要注意下⾯的问题点:0 码力 | 206 页 | 5.35 MB | 1 年前3
Brin Index主Greenplum 7中的理论与实现= 1- 0.000045 Confidential │ ©2021 VMware, Inc. Brin的使用场景 表非常大 数据有一定的分布特性 我们不想再index上付出太多存储空间 Confidential │ ©2021 VMware, Inc. Brin Scan select * from t where a > 1 and a < 8; 1, 3, 20 码力 | 32 页 | 1.04 MB | 1 年前3
Pivotal Greenplum 最佳实践分享Update/delete操作后,数据库不会自动释放这些空间,这些垃圾空间的回收方 式: 1)Vacuum 2)Vacuum full 3)REORGANIZE • 不进行垃圾空间回收的影响 o 垃圾空间浪费存储空间 o 垃圾空间影响查询性能 注:delete all用truncate代替,truncate无需回收垃圾空间 垃圾空间回收 Vacuum:标记垃圾空间为可再利用0 码力 | 41 页 | 1.42 MB | 1 年前3
共 4 条
- 1













