Greenplum Database 管理员指南 6.2.1官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 6 版本都带来了极大 的性能和稳定性的提升。 声明 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部分内容都经过编者重新考量和实测验证,有些观点与官方手册有 出入,仅代表编者本人观点,与官方手册无关。本书中可能会提及一些非官方的命令和 工具等,仅用于讲解相 ...................................................................................... - 37 - 第五章:访问数据库 ............................................................................................... ......................................................................................... - 293 - 访问 Master Only 模式的 Master .......................................................................... -0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 最佳实践分享承,新增的对象需要Grant授权给相应用户。 用户可以属于多个角色组role,用户可以从role继承权限 建议在系统建设时,按照功能、权限划分为较为固定的数个角色组,新增对象时只要把权限Grant到 相应角色组 即可,不需要再按照使用者单独授权,这种方式对于查询用户较多的系统能简化权限管理。 同一个对象内的数据,如果需要分类授权(例如按照机构号,用户只能查看各自所属机构数据),采 看各自所属机构数据),采 用多个视图(视图也是一个对象)映像的方式进行权限划分,然后再将视图进行授权。 SQL被lock了怎么处理 当一个SQL 较长时间都都没有完成,可以怀疑是某些资源被LOCK了 查看是否被锁的方法: – Select*from pg_state_acitivty的waiting状态是否为true – Select*fromgp_toolkit waiting状态 解决方法: – 如果是被其它回话锁了,需要等待其它回话结束或者Cancel; – 极端的情况下,某些回话虽然终止了,但事务没有正常终止,此时可以用UTILITY模式访问对应的Instance,将 其终止 ex: PGOPTIONS='-c gp_session_role=utility' psql-h segment_host –d dbnme –p 400000 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商74 74 74 74 75 76 76 79 81 82 90 92 101 102 103 104 106 128 访问 访问UDW数据仓库 数据仓库 1 客⼾端⼯具访问UDW 2 图形界⾯的⽅式访问UDW 数据导⼊ 数据导⼊ insert加载数据 copy加载数据 外部表并⾏加载数据 从hdfs加载数据 从mysql中导⼊数据 从oracle中导⼊数据 194 196 198 198 198 200 201 201 202 202 202 203 203 203 203 203 204 205 206 访问 Hive 访问 HBase 使⽤ 使⽤ pg_dump 迁移数据 迁移数据 安装 greenplum-db-clients 使⽤ pg_dump 导出数据 使⽤ psql 重建数据 利⽤ 利⽤ hdfs 数据吗? UDW中怎么kill掉正在执⾏的SQL语句? 如何通过外⽹访问UDW? 节点扩容时数量有没有什么限制? 数据仓库价格 数据仓库价格 ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 5/206 概览 概览 产品架构 快速上⼿ 操作指南 访问UDW数据仓库 数据导⼊ 开发指南 udw优化指南 表膨胀 UDW中Json类型0 码力 | 206 页 | 5.35 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 —— dbsync平台 7 数据仓库体系架构 master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载 (gpfdist+外部表,每小时4TB+) Ø 分布分区 Ø 数据压缩 Ø 外部访问 15 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系 环境创建与部署 • 部署注意点 Ø 资源要充足(ETL,管理节点,数据节点,数据集市) Ø 万兆网络 (网络环境对功能和性能的影响) Ø 节点规划 (数据节点6-10个segment节点)0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议be guaranteed 图片来源: Power consumption estimation using in-memory database computation 10 不同存储介质的访问时间 图片来源:Systems Performance: Enterprise and the Cloud,中译本《性能之巅》, 作者Brendan Gregg 11 缓冲区Buffer Pool Steal: 允许Buffer Pool里未提交事务所修改的脏页刷回到持久存储 No-steal: 不允许Buffer Pool里未提交事务所修改的脏页刷到持久存储中 缓冲区管理策略Buffer Management Policy 13 ■ Force策略的问题 对持久存储器进行频繁的随机写操作,性能下降。 ■ No-Steal策略的问题 不允许未提交事务的脏页换出,系统的并发量不高。 ▪ Pool中未提交的事务所修改的脏页刷回到持久存储,如果发生 断电或者系统崩溃。 缓冲区管理策略 14 ■ No-Force → Redo Log 事务提交时,数据页不需要刷回持久存储,为了保证持久性,先把Redo Log写 入日志文件。Redo log记录修改数据对象的新值(After Image, AFIM) ■ Steal → Undo Log 允许Buffer Pool未提交事务所0 码力 | 42 页 | 2.12 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台中,这种灵活性将成倍增长。Pivotal Greenplum 目前可在 Amazon Web Services、Microsoft Azure 和 Google 云平台上运行,并且同时支持自带使用授权 (BYOL) 配置和以小时为单位的按需配置。只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系 列部署选项,群集便会立即启动运行,可供客户使用。 图 2:Pivotal0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum 精粹文集实例层级。安装过 Greenplum 的同学应该都看到每个实例都有自己 的 Postgresql 目录结构,都有各自的一套 Postgresql 数据库守护进 程(甚至可以通过 UT 模式进行单个实例的访问)。正因为如此,甚 至一个运行在单节点上的 GreenplumDB 也是一个小型的并行计算架 构,一般一个节点配置 6~8 个实例,相当于在一个节点上有 6~8 个 Postgresql 数据库同时 数据平台等系统, MPP 数据库有明显的优势。 Big Date2.indd 17 16-11-22 下午3:38 18 而如果你的数据加载后只会被用于读取少数次的任务和用于少数次 的访问,而且主要用于 Batch(不需要交互式),对计算性能不是 很敏感,那 Hadoop 也是不错的选择,因为 Hadoop 不需要你花费 较多的精力来模式化你的数据,节省数据模型设计和数据加载设计 方 切记,千万不要为了大数据而大数据(就好像不要为了创新而创新一 个道理),否则,你项目最后的产出与你的最初设想可能 将差之千里,行业内不乏失败案例。 最后,提一下,GreenplumMPP 数据库支持用“Hadoop 外部表“方 式来访问、加载 HadoopFS 的数据,虽然 Greenplum 的 Hadoop 外部 表性能大幅低于 MPP 内部表,但比 Hadoop 自身的 HIVE 要高很多(在 某金融客户的测试结果,比 HIVE0 码力 | 64 页 | 2.73 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb GPDB GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 需要登录到系统进行运维 • 可以访问数据库二进制文件 • 可以访问数据库数据文件 • 可以访问预写日志文件 潜在风险(二) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 运维模式 • 原厂服务,主机厂或者第三方运维 数据文件为明文二进制文件 • 直接通过Linux自带工具(strings, hexdump)访问 • pg_waldump可以直接读取并显示预写日志 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github0 码力 | 48 页 | 10.19 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享客户端访问和工具 多级容错机制 无共享大规模并行处理 先进的查询优化器 多态存储系统 客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 任务管理 服务 加载 & 数据联邦 高速数据加载 近实时数据加载 任意系统数据访问 存储 & 数据访问 混合存储引擎(行存&列存) 查询列子集时速度快 不同列可以使用不同压缩方式: gzip (1- 9), quicklz, delta, RLE 访问多列时速度快 支持高效更新和删除 AO 主要为插入而优化 表‘SALES’ 11月 列存储 行存储 7月 一年前 二年前 外部表 历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中 无缝查询所有数据 Text, CSV, Binary0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum介绍Client Host Greenplum架构: Master介绍 Master服务器是外面用户访问greenplum的入口。用户 都是连接master服务器的,对于外部用户来说,他并不 与segment host服务器发生任何关系,外部用户的网络 只需要与master服务器连通就可以了,不需要访问 segment host服务器。 所有的用户连接都是直接连接到master服务器上的。 Greenplum数据库是基于PostgreSQL数据库的,所以 可以用PostgreSQL数据库的工具来连接Greenplum数 据库,如java程序可以使用PostgreSQL的jdbc驱动来 访问Greenplum数据库,也可以使用psql工具或 pgadminII来管理Greenplum。 Greenplum架构: Master介绍 Greenplum的Master数据库也是一个被改造过的 host上建多个Segment数 据库,数量等于实际的CPU的core数。 Greenplum架构: 内部网络 Segment host与master是通过greenplum的内部网络互 联起来的,外部用户不需要访问这个内部网络的。 Segment 与Segment之间是有网络连接的,所以 Segment之间可以直接交互数据的。 Greenplum默认使用UDP协议,不过我们发现UDP有 时不稳定,我们一般都使用TCP协议。使用TCP协议,0 码力 | 38 页 | 655.38 KB | 1 年前3
共 20 条
- 1
- 2













