性能问题 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum Database 管理员指南 6.2.1

截止目前，已从事 Greenplum 技术工作 10 余年，10 余年来，专注在 Greenplum 和相关技术领域，主要工作职责是售后支持，帮助我们的 Greenplum 用户解决生产需求和技术问题，我们坚持提供最专业的建议和解决方案，提供最专业的技术支持服务，提供最专业的落地实施支持。十多年来，参与过的项目不计其数，有 POC 测试，有开发支持，有故障支持，有长期驻场支持，有临好者提供一些帮助，在编写过程中，仍会参考官方文档，但绝不是简单的翻译，甚至有些内容会与官方文档不一致。编者提醒，升级版本极其重要，4 版本早该淘汰了，5 版本和 6 版本都带来了极大的性能和稳定性的提升。声明本文档的版权归[陈淼]个人所有，未经许可和授权不得抄袭和引用。本文档中的绝大部分内容都经过编者重新考量和实测验证，有些观点与官方手册有出入，仅代 ....................................................................................... - 229 - 查询性能...................................................................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

年的由慢到快的发展，累积了大量信息和数据，数据在爆发式增长，这些海量数据急需新的计算方式，需要一场计算方式的革命。传统的主机计算模式在海量数据面前，除了造价昂贵外，在技术上也难于满足数据计算性能指标，传统主机的 Scale-up 模式遇到了瓶颈， SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 咖（据说来自 google、yahoo、ibm 和 TD），说干就干，花了一年多的时间完成最初的版本设计和开发，用软件实现了在开放 X86 平台上的分布式并行计算，不依赖于任何专有硬件，达到的性能却远远超过传统高昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 16-11-22 下午3:38 4 2. Greenplum 为什么选择 Postgreeql 做轮子说到这，也许有同学会问，为什么 Greenplum 要基于 Postgresql? 这个问题大致引申出两个问题： 1) 为什么不从数据库底层进行重新设计研发？所谓术业有专攻，就像制造跑车的不会亲自生产车轮一样，我们只要专注在分布式技术中最核心的并行处理技术上面，协调我们下面的轮子跑的更

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

Pivotal大中华区大数据资深架构师目录  Greenplum运维常见问题  Greenplum运维常用命令  Greenplum日常检查和故障处理  Greenplum项目经验分享目录  Greenplum运维常见问题  Greenplum运维常用命令  Greenplum日常检查和故障处理  1000000000  kernel.sem = 250 512000 100 2048  Redhat 6.2以后，内核增加了hugepage大页内存管理，关闭hugepage可以提高混合负载管理性能设置办法：修改local脚本 For SUSE /etc/init.d/boot.local For RHLE /etc/rc.d/rc.local 追加内容：这样来保证每个Instance所需资源，保证系统系统运行稳定性，例如，减少OOM发生的概率； • 对于以批处理、串行工作为主的系统，可以配置到8个Instance，这样可以尽可能的发挥每个 CPU的处理性能。 Master query plan Client Segments Segments Segments Segments Segment Server：Mirror Spread

0 码力 | 41 页 | 1.42 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

库软件解决方案，可部署在不同操作系统、不同芯片的环境，适合本地部署、多云环境（公有云和私有云）中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性，具备良好性能、可靠性和稳定性，使得 Greenplum 不仅可以作为全能的分析化平台，也能满足交易型业务场景，能够处理多种并发混合工作负载，专为满足在多结构数据环境中进行实时分析的需求而设计。欧 • 新文件系统 EulerFS：面向非易失性内存的新文件系统，采用软更新、目录双视图等技术减少文件元数据同步时间，提升文件读写性能。 • 内存分级扩展 etMem：新增用户态 swap 功能，策略配置淘汰的冷内存交换到用户态存储，用户无感知，性能优于内核态 swap。 2. 夯实云化基座容器操作系统 KubeOS：云原生场景，实现 OS 容器化部署、运维，提供与业务容器一致的基于、运行稳定、优异性能、环境适应性强在 MPP 数据库领域独占鳌头，基于 Shared Nothing 的 MPP 高性能系统架构，Greenplum 可以将 PB 级的数据仓库负载分解，并使用所有的系统资源并行处理单个查询。同时 Greenplum 具备数据库 ACID 特性，运行符合 ANSI 标准的 SQL，可以让服务器群集能够以单一数据超级计算机的方式运行，且性能比传统数据库或其他同类平台高出数十甚

0 码力 | 17 页 | 2.04 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

– 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系四 Greenplum扩展规划六 greenplum体系架构 greenplum的体系结构 • greenplum的架构特点 Ø MPP ShareNothing 海量并行处理+完全无共享 Ø cpu计算能力 Ø 数据从Disk上的I/O吞吐性能 Ø master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载（gpfdist+外部表，每小时4TB+） Ø 分布分区初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系环境创建与部署 • 部署注意点 Ø 资源要充足（ETL，管理节点，数据节点，数据集市） Ø 万兆网络（网络环境对功能和性能的影响） Ø 节点规划（数据节点6-10个segment节点） Ø 参数调整（操作系统参数，greenplum集群参数） 24 Greenplum运维体系系统状态监控 - gpcc -公司IDC_01机房

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

数据市场企业数据仓库企业数据集合：主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 • 确保关键任务的可靠性 • 最出色的性能 • 高度灵活性 • 逐步扩展计算能力 • 动态措施 • 数据访问： • 在一个系统中协调所有企业数据的位置 • 可以通过任何语言（SQL、M/R等）进行分析 14 强大并且不断扩展的合作伙伴网络库管理系统市场的突破力量” Gartner的Donald Feinberg 17 通过Greenplum超级数据处理引擎增强竞争优势 Greenplum数据引擎：内容和方式价值主张 – 性价比：性能可达到传统方案（Oracle、Teradata）的 10到100倍，而成本只是其一小部分 – 可伸缩性：从较低的万亿字节扩展到千万亿字节 – 开放式系统：在通用系统和开放源软件的基础上创建软件：Postgres和Greenplum – 体系架构：海量并行处理体系，针对商务智能/数据仓库进行了优化，解决了所有数据流瓶颈问题 Greenplum数据引擎全球最强大的分析数据仓库海量并行查询 • 可以比以往更快地获取查询结果 • 在数据增长的同时确保高性能分析统一的分析处理功能 • 为数据仓库、市场、 ELT、文本挖掘、统计运算提供统一的平台 • 可以使用SQL、

0 码力 | 45 页 | 2.07 MB | 1 年前
3
深度揭秘Greenplum开源数据库透明加密

深度揭秘Greenplum开源数据库透明加密 Greenplum 研发工程师王淏舟 1. 我们所面临的问题 2. 基于pgcypto的数据加密方案 3. GPDB数据透明加密方案设计 4. GPDB数据透明加解密流程 5. 总结我们所面临的问题什么是Greenplum数据库一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署非部门员工运维（原厂，主机厂或者合作伙伴） • 事后审计难度很大 • 服务器数据被盗（托管或云部署）用户的问题现有解决方案基于操作的系统的硬盘加密 • 只能防范服务器硬盘被盗 • 对运维安全无能为力基于pgcypto的加密 • 可以满足数据安全要求 • 非原生方案 • 问题很多基于pgcypto的数据加密方案 pgcypto Postgresql社区提供的一款简单加密插件 (Encrypted) Data (decrypted) pgcypto pgcypto的问题改变原有查询逻辑 • 不兼容现有查询语句 • 不兼容ETL工具性能低 • 不支持索引 • 优化器无法使用，需要全表扫描局限性高 • 多表关联查询需要先全表解密 • 只能加密表数据 pgcypto的问题一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持

0 码力 | 48 页 | 10.19 MB | 1 年前
3
Greenplum分布式事务和两阶段提交协议

in-memory database computation 10 不同存储介质的访问时间图片来源：Systems Performance: Enterprise and the Cloud，中译本《性能之巅》，作者Brendan Gregg 11 缓冲区Buffer Pool page … Buffer Pool Manager (Main Memory) Access Methods Pool里未提交事务所修改的脏页刷到持久存储中缓冲区管理策略Buffer Management Policy 13 ■ Force策略的问题对持久存储器进行频繁的随机写操作，性能下降。 ■ No-Steal策略的问题不允许未提交事务的脏页换出，系统的并发量不高。 ▪ No-Force / Steal 有更好的性能，但是怎么保证事务的原子性和持久性？ ❏ No-Force: 事务提交，所修改的数据页没有刷回至持久存储，如果发生断电询问参与者。 2. 协调者故障如果协调者发生故障，参与者必须决定提交或者撤销事务，在某些情况下，参与者并不知道是否提交事务，所以必须等协调者从失败中恢复。 27 两阶段提交存在的问题 1. Uncertainty Period 2. Blocking 图片来源：Bernstein的著作Principles of Transaction Processing 28 ● 事务的实现原理和Write

0 码力 | 42 页 | 2.12 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

可扩展性 – PageRank 性能 2017.thegiac.com MADlib vs. Spark: 不不同的产品，侧重点不不同 MADlib Spark 算法库易用性需要编程查询优化成熟度稍差内存和流处理通过 Gemfire SQL 语法支持需要提升磁盘数据不是核心焦点并发性能不是核心焦点大数据关联不是核心焦点 2017.thegiac.com ⽤用户案例例 1 Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测模型不不够精准，需要更更好的邮件营销策略略 ● 现有数据分析流程繁琐，速度慢，有很多⼿手动步骤，易易出错客户数据科学解决⽅方案 ● 某⼤大型跨国多元 Net 特征选择模型 1 2 3 4 5 6 改进后的 in-database 流程 2017.thegiac.com 数据编辑/整理理之前之后性能提升 ● 181 ⾏行行代码 ● 75 分钟 ● 116 ⾏行行代码 ● 8 分钟 9.35x 特征编辑 ● 439 特征 ● 4,517 ⾏行行代码

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

ufile 数据导⼊到 udw，我们提供了 ufile 外部表，导⼊数据到 udw，使⽤⽅法请参考：ufile数据导⼊到udw 6、分区表、分区表分区表在逻辑上把⼀个⼤表切割成⼩表，分区表可以优化查询性能、在查询的时候只查询部分分区的内容。另外分区表可以很⽅便的让数据仓库把⼀些⽐较⽼的数据移出数据仓库。⽬前udw⽀持的分区表类型有： range分区：把数据根据指定的范围进⾏分区，例如：时间范围、数值范围 list分区：把数据按照⼀个list的值进⾏分区，例如：产品的种类、地区使⽤分区表的场景： � 数据表⾜够⼤：⼤表格是⽐较适合做分区的、如果你的表格有上亿⾏或者更多的的数据，可以通过分区把数据通过分区分为很多⼩的部分、从⽽提⾼性能。如果⼀个表只有⼏千⾏和⼏万⾏就不需要再做分区。查询模式固定：例如你经常按照⽇期去查找表格数据、我们可以按照每⽉或者每天做分区；如果你需要按照地区去访问数据，我们可以按照地区去做分区。数据的分区，这样可以等倍的提⾼查询性能。使⽤分区的时候请避免建⽴过多的分区，创建过多的分区可能会影响管理和维护作业，例如：清理⼯作，节点恢复，集群扩展，查看磁盘使⽤情况等。开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 92/206 6.1 创建分区表创建分区表创建分区变需要注意以下问题：确定分区策略：按照⽇期分区、按照数值分区、按照⼀个列表值分区

0 码力 | 206 页 | 5.35 MB | 1 年前
3

共 27 条前往

页

分类

语言

格式

Greenplum Database 管理员指南 6.2.1

Greenplum 精粹文集

Pivotal Greenplum 最佳实践分享

完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

并行不悖- OLAP 在互联网公司的实践与思考

Greenplum 新一代数据管理和数据分析解决方案

深度揭秘Greenplum开源数据库透明加密

Greenplum分布式事务和两阶段提交协议

Greenplum机器学习⼯具集和案例

Greenplum数据仓库UDW - UCloud中立云计算服务商