Greenplum备份恢复浅析Greenplum备份恢复浅析 姓名:张文杰 邮箱:zhuodao.zwj@alibaba-inc.com 公司:阿里云 2017 年象行中国(杭州 站)第一期 Greenplum数据备份恢复: 1. 数据量较大 2. 不能完全使用Xlog日志备份 3. 需要保证数据完整性和一致性 2017 年象行中国(杭州 站)第一期 Greenplum提供了: 1. 非并行备份和恢复: -- --pg_dump和pg_dumpall(pg_restore) --copy、psql 2. 并行备份和恢复 --gpcrondump(gpdbrestore) 2017 年象行中国(杭州 站)第一期 并⾏备份和恢复 gpcrondump gpdbrestore 2017 年象行中国(杭州 站)第一期 gpcrondump⽤法(1/3) gpcrondump -x database_name来指定唯一时间戳来标示某个备份集 文件,其中如果当前备份目录中存在更未来的备份集,则备份报错。 gpcrondump命令使用-t 或者--table-file,-T或者--exclusive-table-file,-s或 者--schema-file,-S或者--exclusive-schema-file灵活指定需要全量备份的某 个table或者某个schema,其中-s和-t选项不能同时使用 0 码力 | 17 页 | 1.29 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1版本早该淘汰了,5 版本和 6 版本都带来了极大 的性能和稳定性的提升。 声明 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部分内容都经过编者重新考量和实测验证,有些观点与官方手册有 出入,仅代表编者本人观点,与官方手册无关。本书中可能会提及一些非官方的命令和 工具等,仅用于讲解相关知识,如有缺失相关细节的情况,请谅解。 致读者 如果您 ......................................................................................... - 125 - 验证分区策略 .............................................................................................. ......................................................................................... - 197 - 验证查询是否使用了 Orca ................................................................................... - 1980 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 精粹文集功能设计的方方 面面: 外部表数据加载是并行的、 查询计划执行是并行的、索 引的建立和使用是并行的, 统计信息收集是并行的、表 关联(包括其中的重分布或 广播及关联计算)是并行的,排序和分组聚合都是并行的,备份恢复 也是并行的,甚而数据库启停和元数据检查等维护工具也按照并行方 式来设计。得益于这种无所不在的并行,Greenplum 在数据加载和数 据计算中表现出强悍的性能,某行业客户对此深有体会 : 同样 数据库的几十分之一甚至几百分之一,下图是基于 MapReduce 的 Hive 和 Greenplum MPP 在 TPCH 22 个 SQL 测试性 能比较:(相同硬件环 境下) 某国内知名电商在其 数据分析平台上做过 验证:同样的硬件条 件下,MPP 数据库比 Hadoop 性 能 快 12 倍 以上。 Big Date2.indd 14 16-11-22 下午3:38 Greenplum 精粹文集 某金融客户的测试结果,比 HIVE 高 8 倍左右),因此可以考虑在项 目中同时部署 MPP 数据库和 Hadoop,MPP 用于交互式高性能分析, Hadoop 用于数据 Staging、MPP 的数据备份或一些 ETL batch 的数据 清洗任务,两者相辅相成,在各自最擅长的场景中发挥其特性和优势。 Big Date2.indd 18 16-11-22 下午3:38 Greenplum0 码力 | 64 页 | 2.73 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum版本。该版本为企业级用户提供一个安全稳定可靠的 操作系统。 openEuler 也是一个技术孵化器。通过每半年发布一次的创新版,快速集成 openEuler 以及其他社区的最新技术成 果,将社区验证成熟的特性逐步回合到发行版中。这些新特性以单个开源项目的方式存在于社区,方便开发者获得源代 码,也方便其他开源社区使用。 社区中的最新技术成果持续合入发行版,发行版通过用户反馈反哺技术,激发社区创新活力,从而不断孵化新技术。 等备集群把日志传到主集群才能提交,对于跨区域或者是两地三中心数据中心来说,保证完全同步的开销是很难接受 的,针对这种情况,Greenplum 7 版本采用了多个集群间异步的方式来处理,来确保数据同步。这样备份集群和主 集群之间可能会存在延迟,延迟的大小是由传输管道的带宽决定的,但在大部分使用场景下,这样的延迟是可以接受 的。 图 3:Greenplum 多站点复制 Master 和软件包引入欧拉开源社区软件仓库后,Greenplum 中文社区开发者还针对引入的欧拉开源操作系统 版本做了功能性验证和测试,测试结论如下: GreenplumDB 6.17.0 版本本次测试,共计执行回归用例 930 个,其中核心数据库引擎用例 534 个,隔离级别用例 240 个,失败 1 个(疑似虚机资源问题)。其它功能测试若干,手动验证用例 2 个(SSL 工具版本问题),管理工具脚 本用例 455 个。整体质量良好。0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum介绍PostgreSQL数据库,它包含了整个分布 式数据库中的 所有元数据,如表结构定义、索引等等。但其并不存储 实际的数据,实际的数据是存储在segment 数据库 的。 master服务器接受从用户发来的连接,并做用户验证, 接收用户发来的sql,生成分布式执行计划,再把分布 执行计划分发到segment上执行,接收segment返回的 数据,最后返回给用户。 Greenplum架构: Segment介绍 时候需要花比较 长的时间。对于Greenplum 3.X的版本,恢复时,需要 把好的节点上的所有数据都copy到坏的机器上。而 Greenplum4.0版本增加了功能,当备份节点坏的时 候,主节点可以把增量数据记下来,这样当备份节点的 主机恢复时,只需要恢复增量数据就可以了。 要让原先已offline的节点再加入集群中,需要重启集 群。 Greenplum中的高可用方案 对于Greenplum0 码力 | 38 页 | 655.38 KB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商UDW Copyright © 2012-2021 UCloud 优刻得 8/206 如上图所⽰: 1. Compute Node 中任⼀ Segment 都会有⼀个 Mirror Segment 备份到其他的 Compute Node 上,当 Primary Segment 出现不可⽤的时候会⾃动切换到 Mirror Segment, 当 Primary Segment 恢复之后,Primary 2012-2021 UCloud 优刻得 154/206 bin/zeppelin-daemon.sh start 第⼀次启动Zeppelin,输出如下: 这说明Zeppelin已经部署成功。 4)验证 Zeppelin 默认启动在 8080 端⼝,在浏览器中访问 Zeppelin 主⻚,访问地址是: http://your_host_ip:8080/,你将看到类似如下的⻚⾯。 Zeppelin gine ⽬录下的 default.py。 在 8088 端⼝启动 web 服务器(注意修改相应的防⽕墙保证8088端⼝可以被访问) superset runserver -p 8088 3)验证 SuperSet 默认启动在 8088 端⼝,在浏览器中访问 SuperSet 主⻚,访问地址是: http://your_host_ip:8088/,你将看到类似如下的登录⻚⾯。 接⼊第三⽅0 码力 | 206 页 | 5.35 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考27 Greenplum运维体系 数据库备份 • 配置与结构备份 Ø 多机房级联备份 Ø Greenplum在本机进行第一次备份 Ø 备份通过rsync传输到同机房ETL服务器 Ø 各机房ETL服务器在备份到备份服务器 • 结果数据备份 Ø Greenplum集群与postgresql集市备份 Ø 结果数据csv文件备份 Ø 结果数据到备份postgresql实例 28 Greenplum运维体系 考虑过去的问题,为现在的决策提供参考和依据 • 定位与整合 Ø 公司内网GP小数据量计算,GP加载csv数据,GP大数据量统计 Ø 年表与实例无关,可以形成一个整体的大的Greenplum平台 Ø 网络互通,数据互通,相互备份 • 细节的深化 Ø 在现有OLAP三部分进行细化 Ø 对数据集市本身进行细化 43 THANK YOU0 码力 | 43 页 | 9.66 MB | 1 年前3
Pivotal Greenplum 最佳实践分享Greenplum日常检查和故障处理 Greenplum项目经验分享 个性化备份恢复 备份恢复命令 备份文件gz压缩 按表备份 – 每个表每个实例备单个文件 将分区表分别备成单独文件 缺省备份目录在db_dumps下建立日期路径,与缺省备份一致;也可指定备份路径 按照模式、表清单备份、可排除部分表、可排除全部外部表的Error表 有详细日志、自劢生成成功失败清单、可断点续跑[到表级] 有详细日志、自劢生成成功失败清单、可断点续跑[到表级] 可指定条件筛选数据进行备份 单个失败不影响整个备份任务 可增量备份-识别AO的方式与gpcrondump一致,同时支持heap表的增备(是否发生过变化) 可指定并发数(同时多张表备份),可指定编码Encoding 乐观锁设计——单表尝试加锁失败即认为该表本次备份失败 命令简单易用——单命令无需部署,参数基本保持与gp0 码力 | 41 页 | 1.42 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密管理集群 • 数据备份恢复 运行模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 管理模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 管理模式 管理模式 GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 GPDB为单独数据库软件 • 非一体机 • 缺少对硬件和系统的控制 潜在风险(一) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 需要登录到系统进行运维 • 可以访问数据库二进制文件 • 可以访问数据库数据文件 • 可以访问预写日志文件 潜在风险(二) 潜在风险(二) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 运维模式 • 原厂服务,主机厂或者第三方运维 数据文件为明文二进制文件 • 直接通过Linux自带工具(strings, hexdump)访问 • pg_waldump可以直接读取并显示预写日志 潜在风险(三) GPDB的数据安全 数据需要加密 • 机密数据 • 知识产权保护 • 审计要求0 码力 | 48 页 | 10.19 MB | 1 年前3
Pivotal HVR meetup 20190816com/s/zgCfcbMKOJRYROdxjW6RNA 14 Compare Products 需求:利用GP自建数据仓库面临的数据集成问题 ➢ 支持MySQL的全量以及增量备份 ➢ 支持Oracle的全量以及增量备份 ➢ 支持SQL Server的全量同步 ➢ 对于增量备份可以支持准实时的同步也可以支持延时同步 ➢ 同步软件不会对源库造成负载上升的问题 ➢ 同步中断后能够记录中断点,在下次同步时可以自动从中断点开始继续同步数据0 码力 | 31 页 | 2.19 MB | 1 年前3
共 16 条
- 1
- 2













