Greenplum Database 管理员指南 6.2.1.................................................................................... - 200 - WITH 语句(CTE) ............................................................................................. .................................................................................. - 237 - 第十一章:数据导入与导出 ............................................................................................... .................................................................................... - 252 - 使用外部表导入数据 ................................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案10 + GreenPlum v3.1 Beta – 应用软件:SQL语句 • 数据导入测试 – A - 67858566 rows – B - 80088742 rows – C - 372844366 rows – D - 75042462 rows – E - 2521897 rows 结论:超过6亿条历史数据导入,用时少于1.5小时,性能非常卓越。 • 全表扫描测试 – DWA测试环境:针对表C(372844366 询时长 Greenplu m查询时 长 GP提升倍数 备注 报表一: 查询09年1月份数据 无法响应 查询 30秒 N 基于查询 语句 SQL1 报表一: 查询09年5月份数据 49秒 N 同上 报表二: 查询09年1月份数据 40秒 N 基于查询 语句 SQL2A和 SQL2B 报表二: 查询09年5月份数 32秒 N 同上 复杂查询 本项测试的目的是通过SQL查询检验Green plum数据库引擎处理Query计算的响应 速度。 测试方法:针对数据加载测试中的三张大表,模拟生产业务需求进行复杂SQL语句查 询(参看附录)。 测试结果如下面两表: 语句名 Oracle查 询时长 Greenplu m查询时 长 GP提升倍数 备注 SQL1 1800秒+ 33.16秒 54X+ SQL2 A 1800秒+ 17.49秒 105X+ SQL2 B 1800秒+ 15.97秒0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 精粹文集库文件部署到所有节点就可进行测 试使用了。有些模块还是非常好用的,例如:oraface,基本上集成了 Oracle 常用的函数到 Greenplum 中,曾经在一次 PoC 测试中,用户 提供的 22 条 Oracle SQL 语句,不做任何改动就能运行在 Greenplum 上。 最 后, 需 要 强 调 的 是:Greenplum 绝 不 仅 仅 只 是 简 单 的 等 同 于 “Postgresql+interconnect 数据搬迁,Greenplum 采用了旧环境数据备份、传输、新环境恢复的 方案,停机时间实际只花了不到 4 天。 相比较而言,其他封闭式系统,需要压缩并备份数据,倒腾出整套设 备搬迁到新数据中心,然后再导入新数据,影响或暂停业务几十天。 两种方案从工程复杂度、人力投入、业务影响来说,开放式架构所带 来的便利和优势体现的淋漓尽致。 Big Date2.indd 22 16-11-22 下午3:38 第一次扩容是从 50 节点到 74 节点,完成 30TB 业务数据的导出、传输、 导入,以及 70TB 左右的索引数据创建,实际停机时间大约 3 天左右。 第二次扩容则到了上百节点。考虑到升级操作的可控性并缩短升级和 扩容时间,仍然采用新初始化集群的方案操作,在同一集群中初始化 了一个新数据库,将数据从旧库导出后,再导入新库。该方案在 2 天 之内完成 57TB 压缩数据的加载和 130TB 索引数据的创建。0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum开源MPP数据库介绍replication) Ø 自动灾难恢复 (FTS,主备切换) Confidential │ ©2022 VMware, Inc. 9 分布式优化器:OLAP Ø OLTP系统的SQL语句相对简单(CURD) Ø OLAP系统的SQL语句就复杂得多(OLTP则尽量避免) q Join 很复杂(多表, outer join, lateral…) q 子查询、子链接 q 聚集 (grouping sets 报警和通知 Confidential │ ©2022 VMware, Inc. 20 Greenplum Streaming Server Ø ETL工具 (10+TB/hour) Ø 并行导入流式数据 Ø Kafka和其它流式来源 Confidential │ ©2022 VMware, Inc. 21 Greenplum 7的亮点:PostgreSQL v12 和新特性 Ø 6000+0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum 编译安装和调试代码。(Eclipse、VisualCode具有 类似功能) Greenplum 进程都是 daemon 进程,很难通过启动方式进入调试器。因而通常使用的方法是 attach 到已经运行的进程。 首先启动 clion,导入 Greenplum 源代码项目。clion 需要 CMakeLists.txt 文件构建工程项目。将 下面的 CMakeLists.txt 放到 Greenplum 源代码目录的顶层目录中,再启动 通过图像化窗口定位到 “ExecProcNode” 函数,通过单击下图的小红圈处,即可设置断点在 ExecAgg() 调用处。 执行 SELECT count(*) FROM students 语句,可以使用各种调试命令(例如单步执行、断点、跳 出函数等)方便的调试代码。 如上图所示,可以通过 IDE 很直观的看到正在执行的代码片段,以及函数中变量的值。对于学习 和调试Greenplum非常有帮助。0 码力 | 15 页 | 2.07 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商greenplum 集群 FAQs 创建好数据仓库之后怎么连接到UDW? UDW⽀持从mysql导⼊数据吗? HDFS/Hive与UDW之间可以导⼊导出数据吗? UDW中怎么kill掉正在执⾏的SQL语句? 如何通过外⽹访问UDW? 节点扩容时数量有没有什么限制? 数据仓库价格 数据仓库价格 ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 加载外部⽂件或者外部系统⽂件。详细使⽤请参考 外部表:外部表并⾏加载数据到udw hdfs外部表:创建hdfs外部表 ufile外部表:创建ufile外部表 4.8 变更表 变更表 我们可以通过 ALTER TABLE 语句来更改⼀张表的定义,包括列的定义、数据分布策略、存储模型和分区结构。 给表中的某⼀列增加⾮空约束: ALTER TABLE test ALTER COLUMN street SET NOT NOT test_index; 关于建索引的⼀些建议: 不要在频繁更新的字段上建索引 索引列通常⽤来做join 批量导⼊数据需先删除索引,等数据导完后再重建,这样会更快 索引列经常被频繁使⽤在where语句中 9、 、 ANALYZE/VACUUM ANALYZE:收集数据库的统计信息。 ANALYZE [VERBOSE] [ROOTPARTITION [ALL] ] [table [ (column0 码力 | 206 页 | 5.35 MB | 1 年前3
PostgreSQL和Greenplum 数据库故障排查控制记录哪些SQL语句。none不记录,ddl记录所有数据定 义命令,比如CREATE,ALTER,和DROP 语句。mod记录所有ddl 语句,加上数据修改语句INSERT,UPDATE等,all记录所有执行的 语句,将此配置设置为all可跟踪整个数据库执行的SQL语句。 log_duration = off 记录每条SQL语句执行完成消耗的时间,将此配置设置为on, 用于统计哪些SQL语句耗时较长。0 码力 | 84 页 | 12.61 MB | 1 年前3
Greenplum资源管理器Parallel Processing) 2017 年象行中国(杭州 站)第一期 Greenplum数据库 2017 年象行中国(杭州 站)第一期 Resource Queue • SQL语句并发控制 • 基于cost的并发控制 • 基于priority的CPU控制 • 内存控制 2017 年象行中国(杭州 站)第一期 Running Example • CREATE RESOURCE hang Tx1: SELECT * FROM tbl; -- hang 2017 年象行中国(杭州 站)第一期 Resource Queue • Self-deadlock – 每条SQL语句占用一个slot – extended query • prepare/bind/execute libpq protocol • cursor • named portal – SQL结束不一定释放slot Resource Queue • Memory – Chaotic – 没有严格资源隔离 – 第三方库的malloc 2017 年象行中国(杭州 站)第一期 Resource Group • SQL语句并发控制 => 事务并发控制 • 基于cost的并发控制 • 基于优先级的CPU控制 => 精确CPU比例 • 内存控制 => 严格资源隔离 2017 年象行中国(杭州 站)第一期 Running0 码力 | 21 页 | 756.29 KB | 1 年前3
Greenplum分布式事务和两阶段提交协议TRANSACTION 执行完这句后,select * from pg_locks,会观察到,这个事务申请的RowExclusive锁还在pg_lock里, 31 在PG里,执行完PREPARE语句之后,此时把数据库停掉(或者杀掉所有数据库进程)再启动起来,会发 现pg_locks里,prepared事务所申请的还在pg_lock表里。 问题2: 既然pg_locks是一个内存的数据结构,记 本地事务的管理:创建、提交、状态迁移 等 • 加锁和MVCC • 本地事务的死锁检测 • xlog、commit log(CLOG) • 对PREPARE、COMMIT/ABORT PREPARED语句的处理 Greenplum在PG的基础上实现 Greenplum复用PG的实现 33 分布式事务信息在QD和QE之间的同步 MyTmGxact: TMGXACT 分布式事务结构体 • 分布式事务id0 码力 | 42 页 | 2.12 MB | 1 年前3
Greenplum介绍GP的SQL支持程度 基本上绝大多数PostgreSQL支持的SQL,在 greenplum都支持,如常见的建表、建索引的ddl,以及 一般的dml语句。 Greenplum3.X不支持表空间。4.0提供了支持 tablespace功能。 不支持trigger。 建表语句多了distributed by 子名外, 其它的SQL语法 基本上都与PostgreSQL一样: CREATE TABLE products0 码力 | 38 页 | 655.38 KB | 1 年前3
共 18 条
- 1
- 2













