Greenplum Database 管理员指南 6.2.1
好者提供一些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 6 版本都带来了极大 的性能和稳定性的提升。 声明 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部分内容都经过编者重新考量和实测验证,有些观点与官方手册有 出入,仅代 ....................................................................................... - 229 - 查询性能................................................................................................... ................................................................................... - 266 - Raid 卡性能 ..................................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum 精粹文集
年的由慢到快的发展,累积了大量信息和数 据,数据在爆发式增长,这些海量数据急需新的计算方式,需要一场 计算方式的革命。 传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也 难于满足数据计算性能指标,传统主机的 Scale-up 模式遇到了瓶颈, SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 咖(据 说来自 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 计算的功能也无能为力,就其因估计还是受到 mysql 在这方面限制。 3) 扩展性方面,Postgresql 比 mysql 也要出色许多,Postgres 天生就 是0 码力 | 64 页 | 2.73 MB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
库软件解决方案,可部署在不同操作系统、 不同芯片的环境,适合本地部署、多云环境(公有云和私有云)中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧 • 新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步 时间,提升文件读写性能。 • 内存分级扩展 etMem:新增用户态 swap 功能,策略配置淘汰的冷内存交换到用户态存储,用户无感知,性能 优于内核态 swap。 2. 夯实云化基座 容器操作系统 KubeOS:云原生场景,实现 OS 容器化部署、运维,提供与业务容器一致的基于 、运行稳定、优异性能、环境适应性强在 MPP 数据库领域独占鳌头,基于 Shared Nothing 的 MPP 高性能系统架构,Greenplum 可以将 PB 级的数据仓库负 载分解,并使用所有的系统资源并行处理单个查询。同时 Greenplum 具备数据库 ACID 特性,运行符合 ANSI 标准 的 SQL,可以让服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚0 码力 | 17 页 | 2.04 MB | 1 年前3Pivotal Greenplum 最佳实践分享
1000000000 kernel.sem = 250 512000 100 2048 Redhat 6.2以后,内核增加了hugepage大页内存管理,关闭hugepage可以提高混合负载管理性能 设置办法:修改local脚本 For SUSE /etc/init.d/boot.local For RHLE /etc/rc.d/rc.local 追加内容: 这样来保证每个Instance所需资源,保证系统 系统运行稳定性,例如,减少OOM发生的概率; • 对于以批处理、串行工作为主的系统,可以配 置到8个Instance,这样可以尽可能的发挥每个 CPU的处理性能。 Master query plan Client Segments Segments Segments Segments Segment Server:Mirror Spread 圾空间的回收方 式: 1)Vacuum 2)Vacuum full 3)REORGANIZE • 不进行垃圾空间回收的影响 o 垃圾空间浪费存储空间 o 垃圾空间影响查询性能 注:delete all用truncate代替,truncate无需回收垃圾空间 垃圾空间回收 Vacuum:标记垃圾空间为可再利用 Vacuum0 码力 | 41 页 | 1.42 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
.........................................................................................7 架构化查询语言性能提升 ................................................................................................ 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 询。与旧式 MPP 数据库中常用的传统 RDBMS 查询优化器相比,GPORCA 大幅度地提高了查询性能。 Pivotal Greenplum 5:新一代数据平台 作为重要的新版本,Pivotal Greenplum 5 带来了多项产品改进和新增功能,在管理数据和对数据库中存储的信息应用数据 科学 解决方案的架构设计目的是管理 非常复杂的查询,以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分 析扩展功能支持 ANSI SQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够管理各种规模的数据卷,数 据量从数 GB 到数0 码力 | 9 页 | 690.33 KB | 1 年前3Greenplum 新一代数据管理和数据分析解决方案
数据 市场 企业数 据仓库 企业数据集合:主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 • 确保关键任务的可靠性 • 最出色的性能 • 高度灵活性 • 逐步扩展计算能力 • 动态措施 • 数据访问: • 在一个系统中协调所有企业数据的位置 • 可以通过任何语言(SQL、M/R等)进行分析 14 强大并且不断扩展的合作伙伴网络 库管理系统市场的突破力量” Gartner的Donald Feinberg 17 通过Greenplum超级数据处 理引擎增强竞争优势 Greenplum数据引擎:内容和方式 价值主张 – 性价比: 性能可达到传统方案(Oracle、Teradata)的 10到100倍, 而成本只是其一小部分 – 可伸缩性:从较低的万亿字节扩展到千万亿字节 – 开放式系统:在通用系统和开放源软件的基础上创建 /数据仓库 进行了优化,解决了所有数据流瓶颈问题 Greenplum数据引擎 全球最强大的分析数据仓库 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、 ELT、文本挖掘、统计 运算提供统一的平台 • 可以使用SQL、 MapReduce、R等在 所有层次上对任何数 据进行并行分析 190 码力 | 45 页 | 2.07 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
ufile 数据导⼊到 udw,我们提供了 ufile 外部表,导⼊数据到 udw,使⽤⽅法请参考:ufile数据导⼊到udw 6、分区表 、分区表 分区表在逻辑上把⼀个⼤表切割成⼩表,分区表可以优化查询性能、在查询的时候只查询部分分区的内容。另外分区表可以很⽅便的让数据仓库把⼀些⽐较⽼的数据移出数据仓库。 ⽬前udw⽀持的分区表类型有: range分区:把数据根据指定的范围进⾏分区,例如:时间范围、数值范围 list分区:把数据按照⼀个list的值进⾏分区,例如:产品的种类、地区 使⽤分区表的场景: � 数据表⾜够⼤:⼤表格是⽐较适合做分区的、如果你的表格有上亿⾏或者更多的的数据,可以通过分区把数据通过分区分为很多⼩的部分、从⽽提⾼性能。如果⼀个表只有⼏千⾏和⼏ 万⾏就不需要再做分区。 查询模式固定:例如你经常按照⽇期去查找表格数据、我们可以按照每⽉或者每天做分区;如果你需要按照地区去访问数据,我们可以按照地区去做分区。 数据 留⼀年的数据、如果按⽉做分区、可以通过分区很⽅便的删除最早的⽉份分区、把数据加载到最新的⽉份分区。 把数据分为⼏个均等的部分:通过⼀个分区标准把⼀个⼤表的数据划分为均等的分区,这样可以等倍的提⾼查询性能。 使⽤分区的时候请避免建⽴过多的分区,创建过多的分区可能会影响管理和维护作业,例如: 清理⼯作,节点恢复,集群扩展,查看磁盘使⽤情况等。 开发指南 Greenplum数据仓库 UDW Copyright0 码力 | 206 页 | 5.35 MB | 1 年前3Brin Index主Greenplum 7中的理论与实现
Confidential │ ©2021 VMware, Inc. 目录 Brin Index On Heap AppendOnly Table Brin在AppendOnly Table上的实现 性能测试 5 Confidential │ ©2021 VMware, Inc. Block Range Index 存储数据块中元组字段的最 大最小值,用于过滤不符合条 件的数据块 1 Confidential │ ©2021 VMware, Inc. 目录 Brin Index AppendOnly Table Brin在AppendOnly Table上的实现 性能测试 15 Confidential │ ©2021 VMware, Inc. AoTable AppendOnly Table是一种紧凑的 数据格式,适用于较少进行 Update/Delete的场景 Confidential │ ©2021 VMware, Inc. 目录 Brin Index AppendOnly Table Brin在AppendOnly Table上的实现 性能测试 19 Confidential │ ©2021 VMware, Inc. Revmap With AO Confidential │ ©2021 VMware, Inc.0 码力 | 32 页 | 1.04 MB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
– 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 greenplum体系架构 greenplum的体系结构 • greenplum的架构特点 Ø MPP ShareNothing 海量并行处理+完全无共享 Ø cpu计算能力 Ø 数据从Disk上的I/O吞吐性能 Ø master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载 (gpfdist+外部表,每小时4TB+) Ø 分布分区 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系 环境创建与部署 • 部署注意点 Ø 资源要充足(ETL,管理节点,数据节点,数据集市) Ø 万兆网络 (网络环境对功能和性能的影响) Ø 节点规划 (数据节点6-10个segment节点) Ø 参数调整 (操作系统参数,greenplum集群参数) 24 Greenplum运维体系 系统状态监控 - gpcc -公司IDC_01机房0 码力 | 43 页 | 9.66 MB | 1 年前3Greenplum开源MPP数据库介绍
优化器非常非常重要 Ø 基于规则优化和基于代价优化 Confidential │ ©2022 VMware, Inc. 10 ORCA Ø 历时十年,独立开发 Ø Cascades 架构 Ø OLAP性能很棒 Ø https://db.cs.cmu.edu/events/vaccination-2022-orca-a-modular-query-optimizer- architecture-f Confidential │ ©2022 VMware, Inc. 19 GPCC Greenplum Command Center Ø Web UI 监控和管理 Ø 实时性能监控 Ø 可视化计划 Ø 基于规则的任务管理 Ø 向客户推荐性能优化操作 Ø 报警和通知 Confidential │ ©2022 VMware, Inc. 20 Greenplum Streaming Server Ø0 码力 | 23 页 | 4.55 MB | 1 年前3
共 20 条
- 1
- 2