深度揭秘Greenplum开源数据库透明加密深度揭秘Greenplum开源数据库 透明加密 Greenplum 研发工程师 王淏舟 1. 我们所面临的问题 2. 基于pgcypto的数据加密方案 3. GPDB数据透明加密方案设计 4. GPDB数据透明加解密流程 5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 binary) Executeor 现有解决方案 GPDB查询执行流程 Query Planer Data (plain) 现有解决方案 GPDB查询执行流程 Query Planer Executeor Data (plain) Index pruning optimizing 现有解决方案 GPDB查询执行流程 Query Results Planer Executeor pgcypto加密流程 key Data (Encrypted) pgcypto Data (plain) 临时数据 现有解决方案 pgcypto加密流程 Planer Executeor key Data (Encrypted) pgcypto Data (plain) Data (Encrypted) 临时数据 现有解决方案 pgcypto解密流程 Query Planer0 码力 | 48 页 | 10.19 MB | 1 年前3
Greenplum机器学习⼯具集和案例数据库服务器器 Master Segment 1 Segment 2 Segment n … SQL 存储过程 结果集 String 聚集 psql … 执⾏行行流程 2017.thegiac.com External Sources Load, streaming, etc. Network Interconnect ... . dispatch Segment Servers Query processing & data storage SQL Massively Parallel Processing ⼯工作原理理 2017.thegiac.com External Sources Load, streaming, etc. Network Interconnect ... Input validation & pre-processing SQL Massively Parallel Processing ⼯工作原理理 2017.thegiac.com C API (Greenplum, PostgreSQL, HAWQ) 底层抽象层 (数组操作、类型转换、数值计算库等) 数据库内建函0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 精粹文集这个核心软件组件。最终实现了对同一个集群中多 个 Postgresql 实例的高效协同和并行计算,Interconnect 承载了并行 查询计划生产和 Dispatch 分发(QD)、协调节点上 QE 执行器的并 行工作、负责数据分布、Pipeline 计算、镜像复制、健康探测等等诸 多任务。 在 Greenplum 开源以前,据说一些厂商也有开发 MPP 数据库的打算, 其中最难的部分就是在 Interconnect 模式进行单个实例的访问)。正因为如此,甚 至一个运行在单节点上的 GreenplumDB 也是一个小型的并行计算架 构,一般一个节点配置 6~8 个实例,相当于在一个节点上有 6~8 个 Postgresql 数据库同时并行工作,优势在于可以充分利用到每个节点 的所有 CPU 和 IO 能力。 Greenplum 单个节点上运行能力比其它数据库也快很多,如果运行在 多节点上,其提供性能几乎是线性的增长,这样一个集群提供的性能 16-11-22 下午3:38 Greenplum 精粹文集 15 2) 功能上的对比 MPP 数据库采用 SQL 作为主要交互式语言,SQL 语言简单易学, 具有很强数据操纵能力和过程语言的流程控制能力,SQL 语言是专 门为统计和数据分析开发的语言,各种功能和函数琳琅满目,SQL 语言不仅适合开发人员,也适用于分析业务人员,大幅简化了数据 的操作和交互过程。 而对 MapReduce 编程明显是困难的,在原生的0 码力 | 64 页 | 2.73 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 7 将实现 Master 的自动 Failover,当 Coordinator(Master),如果 Coordinator(Master)出现故障, 将自动把备用节点进行替换,把这一流程自动化,减少人工的干预,这一功能不但将解决现有用户的使用痛点,同时 也大大增加了系统高可用性,避免手工操作,极大方便了系统运维,而这对于运行关键业务应用十分重要。 完全兼容欧拉开源操作系统的 一直以来,客户都能在 Greenplum 中做高级分析,无论是提供将应用逻辑向下推送至数据所在位置的方法,执行分 析功能,还是以大规模并行方式构建数据模型,都可以实现。Greenplum 支持适用于数据挖掘和数据科学工作的最 全面、最先进的分析程序包和扩展。Greenplum 还针对最受欢迎的 Python 和 R 语言算法库提供简单易用的安装程 序,包括 Tensorflow、NumPy、SciPy、XGBo0 码力 | 17 页 | 2.04 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 22 Greenplum运维体系 环境创建与部署 • 部署流程 Ø 规划部署方案 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Greenplum扩展规划 新业务上线流程 • 把握三个方面,解决三个问题 Ø 确认数据来源与传输,解决原始数据从那里来的问题 Ø 确认数据如何计算,解决数据存储和计算加工的问题 Ø 确认数据集市状态,解决结果数据最终展示的问题 • 实现方式 Ø OLAP与OLTP不同,没有非常固定的方式 Ø 没有事务性工作 Ø 只有针对每个业务需求的架构新、探索性、创新性工作 41 Greenplum扩展规划0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1©2020 Esena Chen(陈淼 miaochen@mail.ustc.edu.cn) 编者工作十几年,先后供职于民企,国企,外企,截止目前,已从事 Greenplum 技术工作 10 余年,10 余年来,专注在 Greenplum 和相关技术领域,主要工作职责是 售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提 .................................................................................... - 68 - 资源队列如何工作 .................................................................................................. .................... - 281 - 创建数据库工作目录 ...................................................................................................... - 281 - 创建 Master 的工作目录 ................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 编译安装和调试com/greenplum-db/gpdb,内核代码基于 PostgreSQL 9.4。目前(2019/04/23) 主 干分支的代码基于 PostgreSQL 9.4。合并到 PostgreSQL 9.5 的工作也已经开始,有关最新工作 进展请参见:https://github.com/greenplum-db/gpdb-postgres-merge。 1. 从源代码编译 Greenplum Greenplum --disable-gpfdist --prefix=$HOME/gpdb.master $ make [-j4] $ make install 在苹果系统上初始化Greenplum单节点集群时,需要做些准备工作: ● 添加export PGHOST=localhost至~/.bash_profile ● 将本机的hostname与127.0.0.1的map写到/etc/hosts中。例如 -x 可以打印出所有执行的命令的详细信息。对调试 hang 问题很有效。 ● 在合适的代码处启用 Python 调试器,如果不知道什么地方合适,则在入口处。 3. Greenplum SQL执行流程概要 下面介绍下 Greenplum 中 SQL 执行的简单过程。例子中集群一个 Master 两个 Segments。 准备简单的数据: CREATE TABLE students0 码力 | 15 页 | 2.07 MB | 1 年前3
Greenplum 6新特性:
在线扩容工具GPexpand剖析in下面,和其 他辅助工具,如gpstart,gpstop,gpactivatestandby一样,是一个 用python写的命令行脚本。 GPExpand简介与具体用法 • GPExpand工作流程 – 建立并添加新节点 – 数据重分布 GPExpand简介与具体用法 • 增加新节点 – gpexpand –i 配置文件 • 数据重分布 – gpexpand • 清理 – gpexpand0 码力 | 37 页 | 1.12 MB | 1 年前3
Greenplum 架构概览在后⾯的总结中详述 同时,GP 在存储上⽀持多态存储,也就是对于同⼀份数据,既可以选择基于⾏的存储⽅式,也可以选择基于列的存储⽅式,并且⽀持诸如 S3、HDFS 等外部存储 GP 基本查询流程 PostgreSQL 进程模型 PostgreSQL(以下简称 PG)采⽤的是经典的 C/S 模型,即 Client-Server 模型,同时使⽤多进程的⽅式⽀持并发查询与写⼊。也就是说, postgres 进程与该客户端建⽴连接,postmaster 进程不再处理与该客户端的相关请求 postgres 进程接收客户端的请求,处理并返回结果。当然,响应需要经过 libpq 库的处理 基本查询流程 Query Dispatcher 当 client 向 Master 发起查询请求时,Master 节点上的 postmaster 进程将会 fork 出⼀个⼦进程,叫做 Query Dispatcher(分发0 码力 | 1 页 | 734.79 KB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享 Greenplum 数据库(GPDB)简介 Greenplum 数据库(GPDB)架构 Greenplum 数据库(GPDB)组件 Greenplum 数据库(GPDB)执行流程 Greenplum 数据库(GPDB)5.x 3 Pivotal Confidential–Inter nal Use Only 3 © Copyright 2013 Pivotal. All Pivotal Confidential–Inter nal Use Only 23 © Copyright 2013 Pivotal. All rights reserved. Greenplum 执行流程 24 Pivotal Confidential–Inter nal Use Only 25 Pivotal Confidential–Inter nal Use Only 26 Pivotal0 码力 | 44 页 | 8.35 MB | 1 年前3
共 19 条
- 1
- 2













