无盘安装 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 编译安装和调试

Greenplum 编译安装和调试本文先介绍如何从源代码编译安装Greenplum、初始化Greenplum集群。然后介绍SQL在 Greenplum中的典型执行路径，最后介绍一些调试技巧。源代码使用 Greenplum 开源社区最新源代码 6X_STABLE 分支： https://github.com/greenplum-db/gpdb，内核代码基于 PostgreSQL 重启操作系统 // 安装Greenplum管理脚本依赖的 Python 包 $ wget https://bootstrap.pypa.io/get-pip.py $ sudo python get-pip.py $ sudo pip install psutil lockfile paramiko setuptools epydoc // 需要安装 openssl，否则无法编译 $ git clone https://github.com/greenplum-db/gpdb Greenplum Database 编译和运行依赖于各种系统库和Python库。需要先安装这些依赖： $ sudo yum groupinstall 'Development Tools' # GCC, libtools etc $ sudo yum install curl-devel

0 码力 | 15 页 | 2.07 MB | 1 年前
3
Greenplum 精粹文集

X86 集群在整体上提供的计算能力已大幅高于传统 SMP 主机，并且成本很低，横向的扩展性还可带来系统良好的成长性。问题来了，在 X86 集群上实现自动的并行计算，无论是后来的 MapReduce 计算框架还是 MPP（海量并行处理）计算框架，最终还是需要软件来实现，Greenplum 正是在这一背景下产生的，借助于分布式计算思想，Greenplum 之间采用 share- nothing 无共享架构，从而更将这种并行计算能力发挥到极致，除此之外，MPP 采用两阶段提交和全局事务管理机制来保证集群上分布式事务的一致性，Greenplum 像 Postgresql 一样满足关系型数据库的包括 ACID 在内的所有特征。从上图可以看到，Greenplum 的最小并行单元不是节点层级，而是在实例层级。安装过 Greenplum 的同学应该都看到每个实例都有自己 Share-nothing 无共享架构上，让每一颗 CPU 和每一块磁盘 IO 都运转起来，无共享架构将这种并行处理发挥到极致。相比一些其它传统数据仓库的 Sharedisk 架构，后者最大瓶颈就是在 IO 吞吐上，在大规模数据处理时，IO 无法及时 feed 数据给到 CPU， CPU 资源处于 wait 空转状态，无法充分利用系统资源，导致 SQL 效率低下：一台内置 16 块 SAS 盘的 X86 服务器，每秒的

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

工具等，仅用于讲解相关知识，如有缺失相关细节的情况，请谅解。致读者如果您在阅读和参考本书的过程中发现有任何不妥之处，或者有任何的建议和意见，欢迎联系编者，本书主要针对 GP 数据库的爱好者进行编写，包括产品的安装和使用说明，以及最佳实践等内容。本书的发布更新情况与编者的时间有关，不做承诺。编写：陈淼电邮： miaochen@mail.ustc.edu.cn Greenplum Database .................................................................................... - 263 - 第十二章：安装部署与初始化 ............................................................................................ ......................................................................................... - 269 - 安装操作系统 ..............................................................................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

202 202 202 203 203 203 203 203 204 205 206 访问 Hive 访问 HBase 使⽤使⽤ pg_dump 迁移数据迁移数据安装 greenplum-db-clients 使⽤ pg_dump 导出数据使⽤ psql 重建数据利⽤利⽤ hdfs 外部表迁移数据外部表迁移数据 1. 在原 greenplum 集群中创建 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 20/206 ODBC⽅式连接⽅式连接 Linux操作系统：CentOS 6.5 64位 1. 安装 postgresql odbc驱动 # yum install postgresql-odbc.x86_64 -y 2. 编辑/etc/odbcinst.ini⽂件，配置odbc驱动 Description so Setup64 = /usr/lib64/libodbcpsqlS.so FileUsage = 1 3. 测试ODBC驱动是否安装成功 # odbcinst -q -d [PostgreSQL] 如果出现以上输出，代表在这台机器上已成功安装了PostgreSQL的ODBC驱动。 4. 编辑/etc/odbc.ini⽂件配置ODBC连接快速上⼿ Greenplum数据仓库 UDW

0 码力 | 206 页 | 5.35 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

EulerFS：面向非易失性内存的新文件系统，采用软更新、目录双视图等技术减少文件元数据同步时间，提升文件读写性能。 • 内存分级扩展 etMem：新增用户态 swap 功能，策略配置淘汰的冷内存交换到用户态存储，用户无感知，性能优于内核态 swap。 2. 夯实云化基座容器操作系统 KubeOS：云原生场景，实现 OS 容器化部署、运维，提供与业务容器一致的基于 K8S 的管理体验。 • +StratoVirt 安全容器方案，相比传统 docker+qemu 方案，底噪和启动时间优化 40%。 • 双平面部署工具 eqqo：ARM/X86 双平面混合集群 0S 高效一键式安装，百节点部署时间<15min。 3. 探索场景创新边缘计算：发布面向边缘计算场景的版本 openEuler21.09Edae.集成 KubeEdae+边云协同框架，具备边云应用统一管析功能，还是以大规模并行方式构建数据模型，都可以实现。Greenplum 支持适用于数据挖掘和数据科学工作的最全面、最先进的分析程序包和扩展。Greenplum 还针对最受欢迎的 Python 和 R 语言算法库提供简单易用的安装程序，包括 Tensorflow、NumPy、SciPy、XGBoost、BeautifulSoup、lxml、Keras 和 PyMC3 等 Python 语言算法库和程序包和 BH、DB

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

数据库：ANSI SQL 2008 标准，OLAP，JDBC/ODBC 支持ACID、分布式事务分布式数据库：线性扩展，支持上百物理节点企业级数据库：全球大客户超过 1000+ 安装集群百万行源代码，超过10年的全球研发投入开源数据库(greenplum.org)，良性生态系统 5 Pivotal Confidential–Inter nal Use Only reserved. Greenplum 架构 6 Pivotal Confidential–Inter nal Use Only 平台概况产品特性客户端访问和工具多级容错机制无共享大规模并行处理先进的查询优化器多态存储系统客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构并行数据流引擎高速软数据交换机制 MPP Scatter/Gather 管理工具 GP Command Center GP Workload Manager 7 Pivotal Confidential–Inter nal Use Only MPP(大规模并行处理）无共享体系架构从主节点 … 主节点 SQL • 主节点和从主节点，主节点负责协调整个集群 • 一个数据节点可以配置多个节点实例（Segment Instances) • 节点实例并行处理查询（SQL）

0 码力 | 44 页 | 8.35 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

ShareNothing 海量并行处理+完全无共享 Ø cpu计算能力 Ø 数据从Disk上的I/O吞吐性能 Ø master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载（gpfdist+外部表，每小时4TB+） Ø 分布分区 Ø 数据压缩 Ø 外部访问 15 Greenplum现状说明三 Greenplum体系架构 Greenplum运维体系四 Greenplum扩展规划六 22 Greenplum运维体系环境创建与部署 • 部署流程 Ø 规划部署方案 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum分布式事务和两阶段提交协议

B和C是事务的参与者（participant） 24 两阶段提交与日志操作写日志写日志日志落盘写日志记录日志日志落盘记录日志日志落盘协调者参与者发送prepare消息 ready 发送commit/abort消息 ack 阶段2 阶段1 25 2PC同样可以应用在单机系统上 COMMIT PREPARED ● ROLLBACK PREPARED 30 问题 1：协调者向参与者发prepare之后，参与者完成prepare相应操作，在发送ready之前，会把日志落盘。那参与者申请的锁会不会释放？ postgres=# begin ; BEGIN postgres=*# update t1 set c1 = 14 where c1 =15 ; UPDATE 1 postgres=*#

0 码力 | 42 页 | 2.12 MB | 1 年前
3
Brin Index主Greenplum 7中的理论与实现

AoTable AppendOnly Table是一种紧凑的数据格式，适用于较少进行 Update/Delete的场景 Tuple以紧凑的方式存储在变长的Block中，所以Block在写入磁盘后不能修改，只能向后追加新的Block 为了实现并发Insert，每个AO表逻辑上有128个AoSeg，每个事务向一个特定的AoSeg追加数据 16 Confidential │ ©2021

0 码力 | 32 页 | 1.04 MB | 1 年前
3
Greenplum备份恢复浅析

[--redirect ] 数据恢复(2/2) 2017 年象行中国（杭州站）第一期虽然并行备份和恢复大大提高了备份和恢复的速度，但是仍然存在很多问题： 1. 大量数据需要落盘 2. 使用dbid作为备份文件命名规则，在主备切换或者 primary和mirror后会出现问题 3. 可能会出现各个segment数据不一致的情况 …... 并⾏备份恢复存在的问题 2017

0 码力 | 17 页 | 1.29 MB | 1 年前
3

共 17 条前往

页

分类

语言

格式