Greenplum Database 管理员指南 6.2.1
...................................................................................... - 31 - 第四章:配置客户端认证 ............................................................................................. .......................................................................................... - 48 - 配置与使用资源组 ............................................................................................ 使用资源队列做资源管理的步骤 ............................................................................ - 71 - 配置资源队列管理资源 ..........................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
⼆、 UDW 接⼊ SuperSet UDW 使⽤案例 使⽤案例 案例⼀ 利⽤ logstash+Kafka+UDW 对⽇志数据分析 案例⼆ 基于UDW实现⽹络流分析 PXF 扩展 扩展 配置 PXF 服务 创建 EXTENSION 读写 HDFS ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 4/206 194 196 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 10/206 2.选择计算节点机型、计算节点数量以及付费⽅式。 其中可选的机型配置有: 机型 机型 名称 名称 配置 配置 存储密集型 ds1.large 4核 24G 2000G(SATA) 存储密集型 ds1.6xlarge 24核 144G 12000G(SATA) 计算密集型 dc1.large 选择节点个数:UDW 是分布式架构、所有节点数据都是双机热备,实际可⽤总容量略⼩于节点个数*节点磁盘⼤⼩/2,请根据实际数据⼤⼩选择合适的节点。 3.设置数据仓库信息 必选项有数据仓库名称、DB管理员⽤⼾名、管理员密码。可选项有默认DB,默认DB的名称为dev,你可以选择除了“test”、“postgres”、“template”、“template0”、“template1” 、 “default”之外的其他名称。0 码力 | 206 页 | 5.35 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 Greenplum,并能在数据存储和用户需求增加时扩充配置中的服务器数 量,且无需卸载再重新加载数据。随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Pivotal Greenplum 目前可在 Amazon Web Services、Microsoft Azure 和 Google 云平台上运行,并且同时支持自带使用授权 (BYOL) 配置和以小时为单位的按需配置。只需选择要在群集中调配的数据节 点数量(不超过预定义的最大大小),然后选择一系 列部署选项,群集便会立即启动运行,可供客户使用。 图 2:Pivotal Greenplum 5:不受限于基础架构的软件架构。 不受限于基础架构 裸机 私有云 公有云 pivotal.io/cn 白皮书 6 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM0 码力 | 9 页 | 690.33 KB | 1 年前3Greenplum 编译安装和调试
2.1 手工集群初始化 下面介绍如何手工部署一个单机集群:在一台笔记本上安装一个Greenplum的集群,包括一个 master,两个segments。 # step 0. 系统环境配置 $ /etc/sysctl.conf kernel.shmmax = 500000000 kernel.shmmni = 4096 kernel.shmall = 4000000000 kernel h.sh # step 2. 交换集群中所有机器的ssh密钥, 我们这里只有一台机器 $ gpssh-exkeys -h `hostname` # step 3. 生成三个配置文件: env.sh, hostfile, gpinitsystem_config $ cat env.sh source $HOME/gpdb.master/greenplum_path gpinitsystem 会失败,但是不清楚失败原因是什么。 下面提供一些思路来 RCA: 2.2.1 使用 gpinitsystem 调试模式 gpinitsystem 有一个 -D 选项,使用这个选项可以看到更多的输出信息,根据这些额外的输出信息 可以发现并解决大部分问题。 2.2.2 查看日志 常用的日志文件有两类,一种是 gpinitsystem 的日志,一种是数据库的日志。它们分别保存在不0 码力 | 15 页 | 2.07 MB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步 时间,提升文件读写性能。 • 内存分级扩展 etMem:新增用户态 swap 功能,策略配置淘汰的冷内存交换到用户态存储,用户无感知,性能 优于内核态 swap。 2. 夯实云化基座 容器操作系统 KubeOS:云原生场景,实现 OS 容器化部署、运维,提供与业务容器一致的基于 Embedded,镜像大小<5M,启动时间<5S。 4. 繁荣社区生态 友好卓面环境:UKUDDEXfce 卓面环境,丰富社区卓面环境生态。 • 欧拉 DevKit:支持操作系统迁移、兼容性评估、简化安全配置 secPaver 等更多开发工具。 Greenplum:新一代 HTAP 数据平台 Greenplum 自 2006 年发布第一个版本以来,就以精巧架构、简单易用、运行稳定、优异性能、环境适应性强在 Services、Microsoft Azure 和 Google 云平台上运行,也可以运行在国内云平台上,如阿里云、 腾讯云等,只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系列部署选项,群集 便会立即启动运行,可供客户使用,国内外有相当数量的客户已选择云上 Greenplum。 图 2:Greenplum 不受限于基础架构的软件架构 完全兼容欧拉开源操作系统的0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum 6: 混合负载的理想数据平台
below this line Source and Footnotes Guideline . PROD Space usage (compressed) 1. 24 个生产集群 2. 2个选项: 20个节点或 40个节点 3. 600+ 服务器, 13k+ 核, 81PB存储(增长 中) 4. 2.5PB 或 25PB 原始数据 按10x压缩率 1 2 3 4 Greenplum在摩根士丹利 TPC-B基准测试:环境 基于谷歌云平台(Google Cloud Platform,简称GCP),为5个虚拟主机的集群,包含一 个master主机和四个segment主机,master和segment虚拟主机的配置信息如下 master segment 虚拟机类型 n1-standard-16 n1-standard-8 CPU核数 16 8 内存大小(GB) 60 30 CPU平台 Intel Haswell0 码力 | 52 页 | 4.48 MB | 1 年前3Greenplum备份恢复浅析
ile,-s或 者--schema-file,-S或者--exclusive-schema-file灵活指定需要全量备份的某 个table或者某个schema,其中-s和-t选项不能同时使用 gpcrondump命令使用选项--incremental和--prefix执行增量备份,但是这里 的增量备份实际上只对有如下操作的表进行备份; ALTER TABLE DELETE INSERT TRUNCATE0 码力 | 17 页 | 1.29 MB | 1 年前3Pivotal Greenplum 最佳实践分享
Greenplum运维常见问题 Greenplum运维常用命令 Greenplum日常检查和故障处理 Greenplum项目经验分享 内核参数 通常情况下,内核参数按照GPDB安装手册配置,如需要增加连接数支持,以下参数需要增大 kernel.shmmax = 1000000000 kernel.sem = 250 512000 100 2048 Redhat gp_autostats_on_change_threshold 5000000 5000000 gp_vmem_protect_limit 32768(64G内存时,其他配置 依据实际内存进行调整) 16384(64G内存时,其他配置 依据实际内存进行调整) gp_segment_connect_timeout 10min 10min log_min_duration_statement Instance实例数的配置建议 • Instance是GPDB的最小并行单元,每个Segment 节点一般配置4~8个Instance,初始化完成后很 难修改,需要提前规划; • 每个Instance都是一套独立的进程,当客户端 发起一个请求时,每个Instance都将FORK子进 程并行工作; • 对于并发请求高、面向于复杂的灵活查询的系 统,建议每个Segment配置4个或以下Instance,0 码力 | 41 页 | 1.42 MB | 1 年前3Greenplum 精粹文集
目录结构,都有各自的一套 Postgresql 数据库守护进 程(甚至可以通过 UT 模式进行单个实例的访问)。正因为如此,甚 至一个运行在单节点上的 GreenplumDB 也是一个小型的并行计算架 构,一般一个节点配置 6~8 个实例,相当于在一个节点上有 6~8 个 Postgresql 数据库同时并行工作,优势在于可以充分利用到每个节点 的所有 CPU 和 IO 能力。 Greenplum 单个节点上运行能力比其它数据库也快很多,如果运行在 同规格的计算服务器,后续扩容也要保证新加机器的性不能低于原有 机器,这是由于 MPP 架构本身存在木桶效应,单台机器的性能短板, 很可能导致整体集群变慢,虽然 Greenplum 可以根据具体的硬件配置, 初始化的时候调整每台计算节点部署的实例数,但从具体实施看,极 少有客户这么做。 Segment 节点推荐采用硬件规格如下:两块万兆网卡(一般多为单网 卡双网口)用于内部互连,1-2 块千兆网卡用于带外管理和接入客户 盘插入到灾备机,由于 RAID 信息写在磁盘上,对调磁盘后,所有 数据信息仍然保留,这样就能避免数据同步带来的性能损耗,这种 方式要求集群所有机器采用相同规格的 RAID 卡。 以下是我们新一代一体机硬件和机柜配置,大家可以参考: Big Date2.indd 27 16-11-22 下午3:38 28 4. ETL 服务器 ETL 服务器是数据的临时存放区,由于 Greenplum 服务器并行加载0 码力 | 64 页 | 2.73 MB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
系统状态监控 - gpcc -公司IDC_02 机房 26 Greenplum运维体系 系统状态监控 - gpcc -公司IDC_03机房 27 Greenplum运维体系 数据库备份 • 配置与结构备份 Ø 多机房级联备份 Ø Greenplum在本机进行第一次备份 Ø 备份通过rsync传输到同机房ETL服务器 Ø 各机房ETL服务器在备份到备份服务器 • 结果数据备份 Ø Gr Greenplum开发规范 用户与权限规范 • 四层授权保保障 Ø 角色 role : 管理数据库内对象权限 Ø 用户 user : 用户认证权限 Ø pg_hba.conf : 实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 • 账号类型划分 Ø 管理账号 Ø 开发账号 Ø 调度账号 Ø 业务账号 Ø 测试账号 • 账号名称限定 Ø 所有都用小写字母加下划线的方式 Ø 按照命名规则,做到见名知义0 码力 | 43 页 | 9.66 MB | 1 年前3
共 17 条
- 1
- 2