run()方法 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 编译安装和调试

g20 | 25443 2. 初始化 Greenplum 集群前面编译部分介绍了如何使用 Greenplum 源代码中的 demo 集群脚本创建集群。这种方法简单快捷，然而屏蔽了很多细节。 2.1 手工集群初始化下面介绍如何手工部署一个单机集群：在一台笔记本上安装一个Greenplum的集群，包括一个 master，两个segments。 PGSQL.5432"? 这个通常是由于不同的 psql binary 造成的，也就是说自己编译的 psql 调用了系统的 libpq 库。可以通过 ldd 或者 otool -L 查看。解决方法： export LD_LIBRARY_PATH=/path/to/your/psql/lib 2.2.7 gpstart 失败，并且原因不明 $ gpstart -v // 使用 verbose segment 进程（通常是 QE）和调试master上的进程一样，唯一的区别是如何获得进程的id ？此时不能通过 pg_backend_pid() 获得，因为该pid是 QD 的进程号。常用的方法是通过执行2次 SQL，获得 QE 的进程号。 Greenplum 为了提高效率，降低创建 Gang/QEs 的代价，通常会重用已经创建的Gang/QEs。利用这一特性，可以方便的找到每个 segment上

0 码力 | 15 页 | 2.07 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

厂商的深入合作的典型模板，大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系统平台架构、创新性及核心特点，同时介绍了 Greenplum 作为一款深受技术爱好者喜爱的、中立的纯开源软件，践行 “Run Everywhere”原则，用全新的HTAP核心设计满足实时处理业务需求。在此也为所有为Greenplum on openEuler 成功测试运行所做努力贡献的人员表示感谢！摘要源代码在各种平台进行编译使用。作为能够独立于专用硬件加速提供高性能的纯软件数据平台，Greenplum 可根据客户需求在任何位置运行。借助这种“不受限于基础架构”的方法，可以在本地不同的操作系统、不同的芯片环境或多云环境（私有云或公有云）中部署同一类型的分析数据库。这种不受限于基础架构的方法的大部分优势都具有同样强大的作用，那就是可以消除对第三方平台、供应商制约，助用户实现选择自由。 Greenplum 保持创新性的采用了分布式死锁检测，更新删除表的锁级别已降低，支持并发更新删除操作，大大提升了处理性能。并发控制优化 Greenplum 6 除了全局死锁检测，还引入了多项其他并发控制优化方法，这些优化对 SELECT 和 INSERT 提升比较大。一个优化有关 procarray 锁，另一个优化和事务有关，大多数 OLTP 查询带有主键或者分布键，这种查询不需要两阶段提交（2PC）。

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

才是真正进行数据处理的地方。缺省情况下，用户不能跳过 Master 直接访问 Instance，而只能通过 Master 来访问整个数据库系统，不过，对于管理员来说，有时需要使用 Utility 模式来访问 Instance，访问方法是： $ PGOPTIONS='-c gp_session_role=utility' psql 在 GP 推荐的硬件配置环境下，每个 Instance 需要对应数个 CPU Core AND)，例如：周二下午 10 点到周三上午 8 点不允许登录。还可以指定多个限制，例如：周二的任何时间不允许登录并且周五的下午 3 点到 5 点不允许登录。指明日期和时间有两种方法指明哪一天。使用 DAY 关键字并紧跟英文的星期几，或者 0~6 的数字，如下表所示：英文表述数字表述 DAY 'Sunday' DAY 0 DAY 'Monday' DAY 255.255.0.0 与 192.168.0.0/16 等价 authentication-m ethod 指定连接时使用的认证方法。例如 trust 为不需要密码，md5 为使用 md5 加密认证。更多细节可以查看 PostgreSQL 文档的认证方法部分。编辑 pg_hba.conf 文件下面的例子展示如何编辑 Master 上的 pg_hba.conf

0 码力 | 416 页 | 6.08 MB | 1 年前
3
PostgreSQL和Greenplum 数据库故障排查

/usr/pgsql-11/bin/pg_ctl [root@tar1 ~]# [root@tar1 ~]# /usr/pgsql-11/bin/pg_ctl status pg_ctl: cannot be run as root Please log in (using, e.g., "su") as the (unprivileged) user that will own the server process 允许的客户端（ADDRESS）格式为ip-address/mask 采用local连接方式不必填写，该项可以是IPv4地址或IPv6地址，可以定义某台主机或某个网段。认证方法（METHOD） METHOD指定如何处理客户端的认证。常用的有ident，md5，password， trust，reject。 ident ident是Linux下Po

0 码力 | 84 页 | 12.61 MB | 1 年前
3
Pivotal Greenplum 最佳实践分享

 GPDB最佳实践所推荐的对象管理要求是：一个数据库内对象不要超过10 0000个  最佳实践是出于对系统性能和稳定性因素建议对pg_class 所维护的对象数进行约束  减少对象数的方法： – 提高分区粒度 – 避免大范围使用列存储  pg_class对象数如果不进行约束，可能会产生以下问题： – gprecoverseg –F效率低，数据库实例修复如果增量同步失索引使用： • 以数据批处理为主要功能的系统一般不需建索引 • 以并发查询为主要功能，特别OLTP查询（根据KEY，Attribute等作为筛选条件）的系统按照常用字段建索引。 • 建索引的方法：对于区别度高的字段，如账号、手机号码等使用B-Tree索引，对于区别度低的字段（<10000),采用 Bitmap索引； • 表关联时，一般不需要建索引，如果where条件的筛选性很强，建立索引可以让系统性能提升用多个视图（视图也是一个对象）映像的方式进行权限划分，然后再将视图进行授权。 SQL被lock了怎么处理  当一个SQL 较长时间都都没有完成，可以怀疑是某些资源被LOCK了  查看是否被锁的方法： – Select*from pg_state_acitivty的waiting状态是否为true – Select*fromgp_toolkit.gp_locks_on_relation查看在哪个资源上被锁了

0 码力 | 41 页 | 1.42 MB | 1 年前
3
Greenplum 精粹文集

正是在这一背景下产生的，借助于分布式计算思想，Greenplum 实现了基于数据库的分布式数据存储和并行计算（GoogleMapReduce 实现的是基于文件的分布式数据存储和计算，我们会在后面比较这两种方法的优劣性）。话说当年 Greenplum（当时还是一个 Startup 公司，创始人家门口有一棵青梅 ——greenplum，因此而得名）召集了十几位业界大咖（据说来自 google、yahoo、ibm ，两种技术的相似点在于： ·分布式存储数据在多个节点服务器上 ·采用分布式并行计算框架 ·支持横向扩展来提高整体的计算能力和存储容量 ·都支持 X86 开放集群架构但两种技术在数据存储和计算方法上，也存在很多显而易见的差异： ·MPP 按照关系数据库行列表方式存储数据（有模式），Hadoop 按照文件切片方式分布式存储（无模式）。 ·两者采用的数据分布机制不同，MPP 采用 Hash 系统表出现问题会导致很多种故障产生，如：某些数据库对象不可用，实例恢复不成功，实例启动不成功等。针对系统表相关的问题，我们应该结合各个实例的日志信息，系统表的检查结果一起定位问题，本文将介绍一些定位、分析及解决问题的方法和技巧。 1. 检查工具 Greenplum 提供了一个系统表检查工具 gpcheckcat。该工具在 $GPHOME/bin/lib 目录下。该工具必须要在 Greenplum

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

Greenplum 5：新一代数据平台作为重要的新版本，Pivotal Greenplum 5 带来了多项产品改进和新增功能，在管理数据和对数据库中存储的信息应用数据科学、分析、报告和数据洞察方法方面，这些功能对大多数客户都很有帮助。Greenplum 解决方案的架构设计目的是管理非常复杂的查询，以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询，它让软件数据平台，Greenplum 可根据客户需求在任何位置运行。借助这种“不受限于基础架构”的方法，可以在本地或多云环境（私有云或公有云）中部署同一类型的分析数据库。无论在商业化的 Pivotal Greenplum 或是开源的 Greenplum Database 中，这种不受限于基础架构的方法的大部分优势都具有同样强大的作用。在 Greenplum Database 上部署分析系统时，用户还可获得一些额外的优势：供应商制约。用户可通过不同供应商获得针对 Greenplum 的服务和支持。 • Greenplum Database 在开发时采用的是以社区 / 客户为焦点的开发模式。客户可通过多种开放可用的方法对总体产品方向产生影响，而这又会加快产品创新。客户能够在群集中的一组初始服务器上部署 Pivotal Greenplum，并能在数据存储和用户需求增加时扩充配置中的服务器数量，且无需卸载再重

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum 介绍

年 Pivotal 在 github 的开源贡献列表中全球排名第四左右。采用开源方案，不担心后门问题，不担心被锁定。开源还可以构建更好的生态。 ● 采用敏捷软件开发方法开发的平台：Greenplum 采用敏捷方法开发，实现了快速迭代、持续发布和质量内建。2017 年 Greenplum 发布了 10 个版本，以前发布一个版本需要 1 个月左右，现在只需要十几个小时。 ● 具中文社区尤为活跃，目前约有半数的贡献来自中国开发者，社区贡献者包括阿里云、中移动等大公司，也有诸多中小公司和数据库爱好者。开源之后，Greenplum 把敏捷软件开发方法学引入到分布式数据库的开发中，通过使用站立会议、回顾会议、结对编程、持续集成、测试驱动、单周迭代等敏捷方法建立了高效的快速反馈系统，大大提高了产品的质量和客户的满意度。Greenplum 5.0 是开源之后发布的第一个稳定版本，大约保持 1

0 码力 | 3 页 | 220.42 KB | 1 年前
3
Greenplum 分布式数据库内核揭秘

除了支持数据在不同的 segment 节点上水平分布以外，还支持在单个节点按照不同的标准进行分区，将单个节点上一个逻辑上的大表分割成物理上的几块，且支持多级分区。 Greenplum 目前支持的分区方法有： l 范围分区：根据某个列的时间范围或者数值范围对数据进行分区。譬如以下 SQL 将创建一个按天分区的分区表，将 2021-01-01 到 2022-01-01 这一年的数据分成 366 个分区: Group Key: sales.brand -> Seq Scan on sales 二阶段聚集 l 此时，只需要对在各个节点聚合后的数据进行重分布 l 但需要额外实现 combine() 方法 24 Confidential │ ©2021 VMware, Inc. Greenplum 分布式执行器 QD/QE/火山模型/Gang Confidential │ ©2021 VMware

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

传统数据库的要求今天的数据库供应商网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率数据库管理系统（DBMS）的规模/容量 11 需要采用一种新的方法 •“一切皆可商用”：商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘过去Google™ 基于查询语句 SQL2A和 SQL2B 报表二：查询09年5月份数 32秒 N 同上复杂查询本项测试的目的是通过SQL查询检验Greenplum数据库引擎处理Query计算的响应速度。测试方法：针对数据加载测试中的三张大表，模拟生产业务需求进行复杂SQL语句查询(参看附录)。测试结果如下面两表：语句名 Oracle查询时长 Greenplu m查询时长 GP提升倍数备注

0 码力 | 45 页 | 2.07 MB | 1 年前
3

共 26 条前往

页

分类

语言

格式

Greenplum 编译安装和调试

完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

Greenplum Database 管理员指南 6.2.1

PostgreSQL和Greenplum 数据库故障排查

Pivotal Greenplum 最佳实践分享

Greenplum 精粹文集

Pivotal Greenplum 5：新一代数据平台

Greenplum 介绍

Greenplum 分布式数据库内核揭秘

Greenplum 新一代数据管理和数据分析解决方案