Greenplum Database 管理员指南 6.2.1
...................................................................................... - 31 - 第四章:配置客户端认证 ............................................................................................. .......................................................................................... - 48 - 配置与使用资源组 ............................................................................................ 使用资源队列做资源管理的步骤 ............................................................................ - 71 - 配置资源队列管理资源 ..........................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
⼆、 UDW 接⼊ SuperSet UDW 使⽤案例 使⽤案例 案例⼀ 利⽤ logstash+Kafka+UDW 对⽇志数据分析 案例⼆ 基于UDW实现⽹络流分析 PXF 扩展 扩展 配置 PXF 服务 创建 EXTENSION 读写 HDFS ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 4/206 194 196 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 10/206 2.选择计算节点机型、计算节点数量以及付费⽅式。 其中可选的机型配置有: 机型 机型 名称 名称 配置 配置 存储密集型 ds1.large 4核 24G 2000G(SATA) 存储密集型 ds1.6xlarge 24核 144G 12000G(SATA) 计算密集型 dc1.large 6.5 64位 1. 安装 postgresql odbc驱动 # yum install postgresql-odbc.x86_64 -y 2. 编辑/etc/odbcinst.ini⽂件,配置odbc驱动 Description = ODBC for PostgreSQL Driver = /usr/lib/psqlodbc.so Setup = /usr/lib/libodbcpsqlS0 码力 | 206 页 | 5.35 MB | 1 年前3Pivotal Greenplum 最佳实践分享
Greenplum运维常见问题 Greenplum运维常用命令 Greenplum日常检查和故障处理 Greenplum项目经验分享 内核参数 通常情况下,内核参数按照GPDB安装手册配置,如需要增加连接数支持,以下参数需要增大 kernel.shmmax = 1000000000 kernel.sem = 250 512000 100 2048 Redhat gp_autostats_on_change_threshold 5000000 5000000 gp_vmem_protect_limit 32768(64G内存时,其他配置 依据实际内存进行调整) 16384(64G内存时,其他配置 依据实际内存进行调整) gp_segment_connect_timeout 10min 10min log_min_duration_statement Instance实例数的配置建议 • Instance是GPDB的最小并行单元,每个Segment 节点一般配置4~8个Instance,初始化完成后很 难修改,需要提前规划; • 每个Instance都是一套独立的进程,当客户端 发起一个请求时,每个Instance都将FORK子进 程并行工作; • 对于并发请求高、面向于复杂的灵活查询的系 统,建议每个Segment配置4个或以下Instance,0 码力 | 41 页 | 1.42 MB | 1 年前3Greenplum 精粹文集
目录结构,都有各自的一套 Postgresql 数据库守护进 程(甚至可以通过 UT 模式进行单个实例的访问)。正因为如此,甚 至一个运行在单节点上的 GreenplumDB 也是一个小型的并行计算架 构,一般一个节点配置 6~8 个实例,相当于在一个节点上有 6~8 个 Postgresql 数据库同时并行工作,优势在于可以充分利用到每个节点 的所有 CPU 和 IO 能力。 Greenplum 单个节点上运行能力比其它数据库也快很多,如果运行在 同规格的计算服务器,后续扩容也要保证新加机器的性不能低于原有 机器,这是由于 MPP 架构本身存在木桶效应,单台机器的性能短板, 很可能导致整体集群变慢,虽然 Greenplum 可以根据具体的硬件配置, 初始化的时候调整每台计算节点部署的实例数,但从具体实施看,极 少有客户这么做。 Segment 节点推荐采用硬件规格如下:两块万兆网卡(一般多为单网 卡双网口)用于内部互连,1-2 块千兆网卡用于带外管理和接入客户 盘插入到灾备机,由于 RAID 信息写在磁盘上,对调磁盘后,所有 数据信息仍然保留,这样就能避免数据同步带来的性能损耗,这种 方式要求集群所有机器采用相同规格的 RAID 卡。 以下是我们新一代一体机硬件和机柜配置,大家可以参考: Big Date2.indd 27 16-11-22 下午3:38 28 4. ETL 服务器 ETL 服务器是数据的临时存放区,由于 Greenplum 服务器并行加载0 码力 | 64 页 | 2.73 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 Greenplum,并能在数据存储和用户需求增加时扩充配置中的服务器数 量,且无需卸载再重新加载数据。随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Pivotal Greenplum 目前可在 Amazon Web Services、Microsoft Azure 和 Google 云平台上运行,并且同时支持自带使用授权 (BYOL) 配置和以小时为单位的按需配置。只需选择要在群集中调配的数据节0 码力 | 9 页 | 690.33 KB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
系统状态监控 - gpcc -公司IDC_02 机房 26 Greenplum运维体系 系统状态监控 - gpcc -公司IDC_03机房 27 Greenplum运维体系 数据库备份 • 配置与结构备份 Ø 多机房级联备份 Ø Greenplum在本机进行第一次备份 Ø 备份通过rsync传输到同机房ETL服务器 Ø 各机房ETL服务器在备份到备份服务器 • 结果数据备份 Ø Gr Greenplum开发规范 用户与权限规范 • 四层授权保保障 Ø 角色 role : 管理数据库内对象权限 Ø 用户 user : 用户认证权限 Ø pg_hba.conf : 实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 • 账号类型划分 Ø 管理账号 Ø 开发账号 Ø 调度账号 Ø 业务账号 Ø 测试账号 • 账号名称限定 Ø 所有都用小写字母加下划线的方式 Ø 按照命名规则,做到见名知义0 码力 | 43 页 | 9.66 MB | 1 年前3PostgreSQL和Greenplum 数据库故障排查
postgres 336 Dec 8 11:30 postgresql-Sat.log -bash-4.1$ 2018年PostgreSQL中国技术大会 微信号:laohouzi999 2.日志的配置 2018年PostgreSQL中国技术大会 微信号:laohouzi999 -bash-4.1$ cat postgresql.conf |egrep -i "Log_directory| ALTER,和DROP 语句。mod记录所有ddl 语句,加上数据修改语句INSERT,UPDATE等,all记录所有执行的 语句,将此配置设置为all可跟踪整个数据库执行的SQL语句。 log_duration = off 记录每条SQL语句执行完成消耗的时间,将此配置设置为on, 用于统计哪些SQL语句耗时较长。 记录校验点的信息 log_checkpoints = on log_connections0 码力 | 84 页 | 12.61 MB | 1 年前3Greenplum 编译安装和调试
2.1 手工集群初始化 下面介绍如何手工部署一个单机集群:在一台笔记本上安装一个Greenplum的集群,包括一个 master,两个segments。 # step 0. 系统环境配置 $ /etc/sysctl.conf kernel.shmmax = 500000000 kernel.shmmni = 4096 kernel.shmall = 4000000000 kernel h.sh # step 2. 交换集群中所有机器的ssh密钥, 我们这里只有一台机器 $ gpssh-exkeys -h `hostname` # step 3. 生成三个配置文件: env.sh, hostfile, gpinitsystem_config $ cat env.sh source $HOME/gpdb.master/greenplum_path 有时候单独执行各种命令没有问题,但是使用 SSH 执行时报错。 这通常是由于 ssh 改变了环境变量造成的,查看 .bash_profile, .bashrc, 发现 .bashrc 设 置了不同的默认 PGHOST,删除这个配置后就可以了。 2.2.6 不能连接到server:找不到domain socket ○ → PGOPTIONS='-c gp_session_role=utility' /Users/y0 码力 | 15 页 | 2.07 MB | 1 年前3Greenplum 6新特性: 在线扩容工具GPexpand剖析
建立并添加新节点 – 数据重分布 GPExpand简介与具体用法 • 增加新节点 – gpexpand –i 配置文件 • 数据重分布 – gpexpand • 清理 – gpexpand -c GPExpand简介与具体用法 • 增加新节点 – gpexpand –i 配置文件(gpexpand生成或手动编辑) sdw:sdw:25438:/data/expand1/primary:9:3:p0 码力 | 37 页 | 1.12 MB | 1 年前3Greenplum 新一代数据管理和数据分析解决方案
现在的解决方案 12 Greenplum愿景:企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险 源文件 源数据 源数据 源文件 数据仓库和分析应 用程序 Greenplum数据架构 商用硬件集群 分析 数据 市场 企业数 据仓库 企业数据集合:主要的优势 6台华为-赛门铁克T3500服务搭建数据库阵列 • 每台T3500服务器可以自带24TB硬盘 • 每台服务器含有两个四核的CPU(8 Intel X5560) • 每台机器含有32GB内存 • 每台机器配置6个千兆网口 • Raid10 • Solaris 10 网站日志 交易数据 详细数据 Greenplum •海量基础数据 •大数据量查询 Oracle 加工数据 •门户网站 •高并发查询0 码力 | 45 页 | 2.07 MB | 1 年前3
共 16 条
- 1
- 2