两阶段导入 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum分布式事务和两阶段提交协议

https://cn.greenplum.org 博文资料文档项目全新的问答论坛分布式事务和两阶段提交协议 6 ● 事务实现原理和Write Ahead Logging（WAL） ● 分布式事务和两阶段提交的原理 ● Greenplum两阶段提交协议的实现 ● Greenplum两阶段提交协议的优化 Outline 7 事务的属性：ACID 属性含义数据库系统的实现 Atomic Logging，分布式事务：两阶段提交协议 Consistency 一致性数据库系统必须保证事务的执行使得数据库从一个一致性状态转移到另一个一致性状态。（满足完整性约束）实现对A、I、D三个属性的支持 Isolation 隔离性多个事务并发地执行，对每个事务来说，它并不会感知系统中有其他事务在同时执行。多版本并发控制Multi-Version Concurrency Control、两阶段加锁（Two 分布式事务和两阶段提交的原理 ● Greenplum两阶段提交协议的实现 ● Greenplum两阶段提交协议的优化 Outline 22 分布式事务 ● 分布式事务，分布式环境下的事务，是一个典型的嵌套式事务，一个事务由多个工作节点的子事务组成。 ● 必须保证参与分布式事务的各个场地（节点）的事务，要么全部提交，要么全部rollback，不能出现部分提交的情况。一阶段提交不能保证

0 码力 | 42 页 | 2.12 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

.................................................................................. - 237 - 第十一章：数据导入与导出 ............................................................................................... .................................................................................... - 252 - 使用外部表导入数据 ................................................................................................ 使用基于命令的 WEB 型外部表导出数据 ............................................................. - 259 - 使用 COPY 命令导入导出 .............................................................................................. -

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

难于满足数据计算性能指标，传统主机的 Scale-up 模式遇到了瓶颈， SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于 GFS 分布式文件系统，另外一篇是关于 MapReduce 并行计算框架的理论，分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。正是在这一背景下产生的，借助于分布式计算思想，Greenplum 实现了基于数据库的分布式数据存储和并行计算（GoogleMapReduce 实现的是基于文件的分布式数据存储和计算，我们会在后面比较这两种方法的优劣性）。话说当年 Greenplum（当时还是一个 Startup 公司，创始人家门口有一棵青梅 ——greenplum，因此而得名）召集了十几位业界大咖（据说来自 google、yahoo、ibm 下午3:38 4 2. Greenplum 为什么选择 Postgreeql 做轮子说到这，也许有同学会问，为什么 Greenplum 要基于 Postgresql? 这个问题大致引申出两个问题： 1) 为什么不从数据库底层进行重新设计研发？所谓术业有专攻，就像制造跑车的不会亲自生产车轮一样，我们只要专注在分布式技术中最核心的并行处理技术上面，协调我们下面的轮子跑的更快更

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum开源MPP数据库介绍

产生计算进程 Ø Libpq：控制信道 Ø Interconnect: 数据交换信道 Confidential │ ©2022 VMware, Inc. 8 Greenplum的高可用 Ø 数据存两份，Coordinator有standby Ø 自动同步数据 (WAL replication) Ø 自动灾难恢复 (FTS，主备切换) Confidential │ ©2022 VMware, OLAP系统的SQL语句就复杂得多（OLTP则尽量避免） q Join 很复杂(多表, outer join, lateral…) q 子查询、子链接 q 聚集 (grouping sets, 多阶段聚集…) q 窗口函数, (Recursive) CTE q Procedure Languages（Python，R，Perl……） Ø 优化器非常非常重要 Ø 基于规则优化和基于代价优化 ©2022 VMware, Inc. 14 分布式执行和事务 Ø MVCC q Xmin, Xmax 是节点本地的 Ø 分布式快照 q QD生成，下发给QE q segment本地事务异步两阶段提交，保持一致性 Ø HTAP 优化 q 全局死锁检测 q 只读事务、只涉及到某个节点的操作、vacuum Ø SIGMOD 2021: Greenplum: A Hybrid Database

0 码力 | 23 页 | 4.55 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

建一个开放、多元和架构包容的软件生态体系，孵化支持多种处理器架构、覆盖数字设施全场景，推动企业数字基础设施软硬件、应用生态繁荣发展。 openEuler 作为一个操作系统发行版平台，每两年推出一个 LTS 版本。该版本为企业级用户提供一个安全稳定可靠的操作系统。 openEuler 也是一个技术孵化器。通过每半年发布一次的创新版，快速集成 openEuler 以及其他社区的最新技术成 SIGMOD 的收录论文，ACM SIGMOD 数据管理国际会议是由美国计算机协会 (ACM) 数据管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地位的国际性学术会议，SIGMOD 和另外两大数据库会议 VLDB、ICDE 构成了数据库领域的三个顶级会议，其论文录取率是很低的，平均录取率大约仅为 15%-17%，值得一提的是此论文主要由中国研发团队完成，也说明了中国研发团队实力处于世界一流水平。在论文除了全局死锁检测，还引入了多项其他并发控制优化方法，这些优化对 SELECT 和 INSERT 提升比较大。一个优化有关 procarray 锁，另一个优化和事务有关，大多数 OLTP 查询带有主键或者分布键，这种查询不需要两阶段提交（2PC）。集群在线扩容 Greenplum 6 实现了不停库在线增加新节点, 期间不会中断正在运行的所有查询；另外采用了 Jump Consistent Hash 的一致性哈希算法

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum 排序算法

递归排序子序列：递归地将小于基准元素的子序列和大于基准元素的子序列分别进行排序快速排序 8 ● 快速排序算法每次选取一个基准元素，将比基准元素小的排到基准元素左边，比基准元素大的排到基准元素的右边，从而将待排序数组分成两个子集。快速排序 6 8 3 2 7 1 7 9 8 7 7 9 6 3 2 1 分治法 9 快速排序 ● 快速排序算法： 10 堆排序是最常用的排序算法，由J.Williams在1964年发明。 6 8 20 ● 堆排序算法堆排序 21 ● 归并排序分为两个阶段，阶段一是分割阶段，将原始待排序数据分成若干个顺串。阶段二是合并阶段，将所有小顺串合并成一个包含所有数据的大顺串外排序之归并排序 1 7 4 8 1 7 4 8 1 4 7 8 待排序数据分割阶段合并阶段 22 ● 问题一：分割阶段只需要顺序扫描一次外存，最简单的策略是读取外存数据，加载到内存，当空内存，继续读取外存数据，如此反复，直到所有外存数据处理完毕。该算法生成的每一个顺串的大小都不会超过内存的大小，而顺串越小，合并阶段的代价就越高，需要读取外存的次数也越多，有没有办法在分割阶段就生成大于内存大小的顺串呢？归并排序的三个问题 23 替换选择算法 24 Knuth 5.4.1R替换选择算法： ● 1. 初始化阶段，读取输入元组至内存，并建立最小堆。 ● 2. 弹出堆顶元组，输出到顺串文件的缓冲区，并记录该元组的排序键为

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

可以通过任何语言（SQL、M/R等）进行分析 14 强大并且不断扩展的合作伙伴网络硬件供应商商务智能工具 15 服务供应商业内支持和认可行业奖励 “ Greenplum能够让企业在两个方面同时达到最满意的效果：供程序员使用的MapReduce以及供数据库管理使用的 SQL。” Monash Research 的Curt Monash 分析师褒奖 “ Greenplum正在通过新式技术来现有运行现状 – 随着数据量的不断增长，应用在现有平台上的运行效率极度恶化。 – 实际运行采样，9月份月度数据处理时，该应用耗时42小时；经过两个月的数据累加，到11月份月度数据处理时，该应用耗时达到65小时。 • 测试运行平台 – 服务器平台：SUN X4500两台，每台含2路dual-core CPU 共4core， 16GB；SUN X4200一台，2路dual-core CPU 共4core，8GB GreenPlum v3.1 Beta – 应用软件：SQL语句 • 数据导入测试 – A - 67858566 rows – B - 80088742 rows – C - 372844366 rows – D - 75042462 rows – E - 2521897 rows 结论：超过6亿条历史数据导入，用时少于1.5小时，性能非常卓越。 • 全表扫描测试 – DWA测试环境：针对表C（372844366

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum 编译安装和调试

集群脚本创建集群。这种方法简单快捷，然而屏蔽了很多细节。 2.1 手工集群初始化下面介绍如何手工部署一个单机集群：在一台笔记本上安装一个Greenplum的集群，包括一个 master，两个segments。 # step 0. 系统环境配置 $ /etc/sysctl.conf kernel.shmmax = 500000000 kernel.shmmni = 4096 gpinitsystem 调试模式 gpinitsystem 有一个 -D 选项，使用这个选项可以看到更多的输出信息，根据这些额外的输出信息可以发现并解决大部分问题。 2.2.2 查看日志常用的日志文件有两类，一种是 gpinitsystem 的日志，一种是数据库的日志。它们分别保存在不同的目录下： ● gpinitsystem 的日志文件。默认路径为 ~/gpAdmin/gpinitsystem_*** Python 调试器，如果不知道什么地方合适，则在入口处。 3. Greenplum SQL执行流程概要下面介绍下 Greenplum 中 SQL 执行的简单过程。例子中集群一个 Master 两个 Segments。准备简单的数据： CREATE TABLE students (id int, name text) DISTRIBUTED BY (id);

0 码力 | 15 页 | 2.07 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

©2021 VMware, Inc. 8 数据存储分布化是分布式数据库要解决的第一个问题。通过将海量数据分散到多个节点上，一方面大大降低了单个节点处理的数据量，另一方面也为处理并行化奠定了基础，两者结合起来可以极大的提高系统的性能。譬如在 100 个节点的集群上，每个节点仅保存总数据量的 1/100，100 个节点同时并行处理，性能会是单个配置更强节点的几十倍。 Greenplum 不仅仅如 Text、CSV、Avro、Parquet 等。多态存储 Confidential │ ©2021 VMware, Inc. 14 多态存储如上所示，可以根据数据访问频率以及数据量这两个维度来选择不同的存储方式，并且在逻辑上仍然是同一张表。 15 Confidential │ ©2021 VMware, Inc. Greenplum 分布式查询优化器 Motion Confidential 节点并返回给客户端用户。分布式查询优化器 l 对于普通查询，只需要将 Segment 上的数据汇总即可，如果有 filter，则在 segment 上执行条件过滤 l 对于 JOIN，我们需要考虑两张表的分布键以及分布策略。若分布键和分布策略不同，就需要对数据进行节点间移动 Confidential │ ©2021 VMware, Inc. 17 由于数据是根据某种分布策略分散的存储在集

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

st_makepoint() 计算给定经纬度方圆2KM的范围 GPText.search() 函数可以知道是否一个人在 Pivotal工作 Greenplum MADlib BFS 算法可以知道两个之间是否有直接联系 Greenplum模糊字符串匹配函数Soundex() 可以知道姓名是否发音是 ‘Pavan’或‘Peter’ Greenplum Time 函数计算24 小时内的取款时间 6：锁和事务的优化表‘SALES’ 表‘SALES’ ■ 大幅减少事务开始和结束时的锁冲突 ■ 消除隐式只读操作（单条SELECT）的锁冲突 ■ 避免显式只读事务（BEGIN-SELECT-END）的两阶段提交（开发中） ■ fastpath锁（PostgreSQL合并） 32 Pivotal Confidential–Internal Use Only TPC-B基准测试：环境基于谷歌云平台（Google

0 码力 | 52 页 | 4.48 MB | 1 年前
3

共 19 条前往

页

分类

语言

格式

Greenplum分布式事务和两阶段提交协议

Greenplum Database 管理员指南 6.2.1

Greenplum 精粹文集

Greenplum开源MPP数据库介绍

完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

Greenplum 排序算法

Greenplum 新一代数据管理和数据分析解决方案

Greenplum 编译安装和调试

Greenplum 分布式数据库内核揭秘

Greenplum 6: 混合负载的理想数据平台