Greenplum Database 管理员指南 6.2.1....................................................................................... - 144 - 索引类型 .................................................................................................. ...................................................................................... - 151 - 视图的依赖关系 ................................................................................................ ....................................................................................... - 271 - 软件依赖 ..................................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商146 152 152 163 177 177 183 190 190 191 192 udw优化指南 表膨胀 表膨胀 表膨胀的原因 如何避免表膨胀 UDW中 中Json类型 类型 Json相关操作 Json操作举例 Json相关函数 Json创建函数 Json处理函数 接⼊第三⽅ 接⼊第三⽅ BI ⼯具 ⼯具 ⼀、 UDW 接⼊ Zeppelin ⼆、 UDW Copyright © 2012-2021 UCloud 优刻得 5/206 概览 概览 产品架构 快速上⼿ 操作指南 访问UDW数据仓库 数据导⼊ 开发指南 udw优化指南 表膨胀 UDW中Json类型 接⼊第三⽅ BI ⼯具 UDW 使⽤案例 Pxf 扩展功能 迁移数据 使⽤ pg_dump 使⽤ pxf 外部表 FAQs 数据仓库价格 概览 Greenplum数据仓库 UDW Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 11/206 计算密集型 dc1.8xlarge 28核 168G 3800G(SSD) 选择数据仓库类型:Greenplum 是 EMC 开源的数据仓库产品、Udpg 是基于 PostgreSQL 开发的⼤规模并⾏、完全托管的 PB 级数据仓库服务。 选择节点个数:UDW 是分布式架构、所有节点数据都是双机热备0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum 编译安装和调试command+R 进入恢复模式 3. 从 Utilities 菜单选择 Terminal 4. 执行 csrutil disable 5. 重启操作系统 // 安装Greenplum管理脚本依赖的 Python 包 $ wget https://bootstrap.pypa.io/get-pip.py $ sudo python get-pip.py $ sudo pip install Greenplum 源代码 $ git clone https://github.com/greenplum-db/gpdb Greenplum Database 编译和运行依赖于各种系统库和Python库。需要先安装这些依赖: $ sudo yum groupinstall 'Development Tools' # GCC, libtools etc $ sudo yum install em_*** ● 数据库的日志文件:进入 master (segment 的日志类似)的日志目录 (例如 /data/master/gpseg-1/pg_log/) 查看日志。 这里面有2种类型的日志: ○ startup.log ○ gpdb-.csv 2.2.3 初始化 master 数据库失败 手动执行initdb查看详细错误信息,然后分析具体错误信息采取相应错误。不同的版本可0 码力 | 15 页 | 2.07 MB | 1 年前3
Greenplum 精粹文集——greenplum,因此而得名)召集了十几位业界大咖(据 说来自 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 是如何的方便,另外,开发新的功能模块、新的数据类型、新的索 引类型等等非常方便,只要按照 API 接口开发,无需对 PG 重新编译。 PG 中 contrib 目录下的各个第三方模块,在 GP 中的 postgis 空间 数据库、R、Madlib、pgcrypto 各类加密算法、gptext 全文检索都 是通过这种方式实现功能扩展的。 4) 在诸如 ACID 事物处理、数据强一致性保证、数据类型支持、独特 的 MVCC 以上,并带有掉电保护 功能,RAID 卡应为多通道,目前接触的硬件厂商中,单通道支持的最 大磁盘数为 16 块) ·硬盘尽量选 用 SAS 盘,从实践经验看,硬盘故障是 Greenplum 集群中最为常见的故障类型,而 SAS 盘相比 SATA 盘在性能和稳定 性上都明显的高于 SATA 盘 。 ·RAID 卡一定要带 cache,否则做完 RAID 后写的性能会非常差, 曾遇到一客户,把 GP 迁移到更大容量、更多磁盘的机器后,集群0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum介绍supplier_id integer) DISTRIBUTED BY (prod_id); GP的表增强 greenplum除支持普通的表外,还增加了PostgreSQL 中没有的表类型: append-only table: CREATE TABLE bar (a int, b text) WITH (appendonly=true) DISTRIBUTED BY (a); 所有的数据库操作,如表扫描、表连接(joins)、聚集 ( aggregations),排序,这些操作都会在所有的 segment上并行执行。每个segment执行这些操作时都 不依赖其它的segment。 除了上面这引起典型的数据库操作,Greenplum的 数据库有一个额外的操作类型,称为的motion。 motion操作就是把查询处理过程中涉及到的其它节点 上的数据在各个节点中做移动。 GP的查询处理0 码力 | 38 页 | 655.38 KB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案greenplum.com www.greenplum-china.com Greenplum:简介 Greenplum数据引擎软件为新一代数 据仓库所需的大规模数据和复杂查询功 能所设计 3 推动数据依赖型企业的发展 全球各地的一些Greenplum客户 4 亚太地区 欧洲、中东、非洲 北美 中国的客户 5 金融 交通 互联网 其它 Teradata Netezza Oracle Greenplum 采用新的编程模型,在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 MapReduce Greenplum MapReduce的优势 • 处理在任何地点存储的任何类型的数 据 • 将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据0 码力 | 45 页 | 2.07 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台5:新一代数据平台 作为能够独立于专用硬件加速提供高性能的纯软件数据平台,Greenplum 可根据客户需求在任何位置运行。借助这种“不 受限于基础架构”的方法,可以在本地或多云环境(私有云或公有云)中部署同一类型的分析数据库。 无论在商业化的 Pivotal Greenplum 或是开源的 Greenplum Database 中,这种不受限于基础架构的方法的大部分优势都 具有同样强大的作用。在 Greenplum 偏差。随后,Workload Manager 会在查询使 用的某项资源超过已定义阈值时记录日志,并可根据规则定义在必要时终止超过规定资源限额的查询。规则可按一天中的 时间和一周中的日期编写,这样各种不同类型的工作负载(例如 ETL 和报告处理)都能不间断运行。 架构化查询语言性能提升 Pivotal Greenplum 5 对 SQL 查询处理进行了多项改进。广受欢迎的 SQL 结构——相关子查询(即嵌套在另一查询内的查 GREENPLUM 5:新一代数据平台 其他功能特性 Pivotal Greenplum 5 支持多种新的内置数据类型,并针对现有数据类型进行了改进。新增的类型包括符合 RFC 4122 和 ISO/IEC 9834-8:2005 标准的通用惟一标识符 (UUID)。JSON 类型可用于存储和处理不限长度的可变 JSON 数据,新 增了用于查询和解析 JSON 记录的内置函数。与 JSON 类似,HSTORE0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum上云与优化Greenplum(SSD/SATA) AWS RedShift 外部表 支持OSS外部表 无此设计 地理信息支持 支持(自带PostGIS) 不支持 分区表支持 支持 不支持 数据类型 支持所有PostgreSQL 9.0以下类型 支持11个PostgreSQL类型 横向扩容 支持 支持,需要停机(数分钟) 索引 支持(B-tree、Bitmap) 不支持 2016Postgres中国用户大会 推荐应用架构 应用服务器 目前支持的插件 MADLib PL/Java Pgcrypto Fuzzstringmatch PostGIS Orca hll 2016Postgres中国用户大会 完善的JSON数据类型支持 Create table users( id int, info json) Select info->name from users 2016Postgres中国用户大会 用户权限定制0 码力 | 26 页 | 1.13 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考多任务冲突 • 库表使用易出现问题 Ø 表定义过大 Ø 表类型单一 Ø 表的散列键不恰当 Ø 分区表的分区键性能不佳 • 加载易出现问题 Ø 文件加载出现特殊字符 Ø 数据校验标准问题 35 Greenplum开发规范 业务库表设计规范 • GP中表的范围 Ø 最大时间为年表 Ø 数据量小,可用单表 • 多种表类型 Ø 堆表 (选好常用列作为三列键) Ø 分区表 (按照 yyyymmdd yyyymmdd 分区,建议都添加 datenum int8) Ø append表 Ø 列存储表 Ø 多种表类型结合 • 表的命名 Ø GP内所有名称都小写 Ø table_name命名要符合命名规则,做到见名知义 36 Greenplum开发规范 用户与权限规范 • 四层授权保保障 Ø 角色 role : 管理数据库内对象权限 Ø 用户 user : 用户认证权限 Ø pg_hba.conf conf : 实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 • 账号类型划分 Ø 管理账号 Ø 开发账号 Ø 调度账号 Ø 业务账号 Ø 测试账号 • 账号名称限定 Ø 所有都用小写字母加下划线的方式 Ø 按照命名规则,做到见名知义 37 Greenplum开发规范 Greenplum使用规范 • 平时使用规范 Ø避免高频率的insert、update操作 Ø避免频繁执行高内存消耗的会话0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 排序算法结构体 排序节点 类型 字段 说明 ScanState ss 查询状态信息 bool randomAccess 排序后的元组是否需要随机访问 bool bounded 是否是TopK查询 int64 bound TopK查询中K的值 bool sort_Done 排序步骤是否完成 GenericTupStore* tuplesortstate 根据排序算法类型,指向Tuplesortstate0 码力 | 52 页 | 2.05 MB | 1 年前3
共 19 条
- 1
- 2













