完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 ........................................................................................ 4 欧拉开源操作系统 .................................................................................................. ........................................................................................ 6 欧拉开源操作系统平台架构 ..............................................................................................0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1打磨这个文档,并完 全根据最新的版本特性进行重新整理,希望能对中文爱好者提供一些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 编者提醒,升级版本极其重要,4 版本早该淘汰了,5 版本和 6 版本都带来了极大 的性能和稳定性的提升。 声明 本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部 .......................................................................................... - 95 - 系统模式 ................................................................................................ ..................................................................................... - 269 - 安装操作系统 ..................................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum机器学习⼯具集和案例完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib: 适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力 ● 机器器学习 ● 图形分析 ● 统计分析 MPP系统上的可扩展应⽤用 Apache上的开源项⽬目 ● 发布了了 6 个版本 ● Apache 顶级项⽬目 Pivotal Greenplum LDA ⾃自动分析每个⽂文档,统计⽂文档内的词语,根据统计的信息来断定当 前⽂文档含有哪些主题,以及每个主题所占的⽐比例例各为多少。 主题模型:Latent Dirichlet Allocation (LDA) 2017.thegiac.com 基于LDA特征的聚类 会话 主题分布 K-means 会话聚类 • 把每个会话看成一篇文章 • 百万级别文档 • 词汇量 8000+0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议greenplum.org 博文 资料 文档 项目 全新的问答论坛 分布式事务和 两阶段提交协议 6 ● 事务实现原理和Write Ahead Logging(WAL) ● 分布式事务和两阶段提交的原理 ● Greenplum两阶段提交协议的实现 ● Greenplum两阶段提交协议的优化 Outline 7 事务的属性:ACID 属性 含义 数据库系统的实现 Atomic 原子性 Ahead Logging,分布式事务:两阶段提交协议 Consistency 一致性 数据库系统必须保证事务的执行使得数据库 从一个一致性状态转移到另一个一致性状态。 (满足完整性约束) 实现对A、I、D三个属性的支持 Isolation 隔离性 多个事务并发地执行,对每个事务来说,它并 不会感知系统中有其他事务在同时执行。 多版本并发控制Multi-Version Concurrency “ACID”,自此,事务的ACID四个性质成为业内标准术语 8 Disk-Oriented DBMS Components 数据库管理系统组成图 Hector Garcia-Molina /Jeffrey D.Ullman/Jennifer Widom《数据库系统实现》 查询编译器/ 优化器 事务管理器 DDL编译器 执行引擎 日志和恢复 并发控制 索引/文件/ 记录管理器 缓冲区管理器0 码力 | 42 页 | 2.12 MB | 1 年前3
Greenplum 编译安装和调试Greenplum 目前官方支持 Redhat/Centos/SuSE/Ubuntu 等Linux系统。大量开发人员包括我自己 使用Mac系统,但是不在官方支持列表中。 1.1 在 Mac 系统上编译 首先需要关闭苹果操作系统的 SIP 特性,否则无法初始化集群。 1. 重启操作系统 2. 重启过程中按下 command+R 进入恢复模式 3. 从 Utilities 菜单选择 菜单选择 Terminal 4. 执行 csrutil disable 5. 重启操作系统 // 安装Greenplum管理脚本依赖的 Python 包 $ wget https://bootstrap.pypa.io/get-pip.py $ sudo python get-pip.py $ sudo pip install psutil lockfile paramiko setuptools --disable-gpcloud \ --disable-gpfdist --prefix=$HOME/gpdb.master $ make [-j4] $ make install 在苹果系统上初始化Greenplum单节点集群时,需要做些准备工作: ● 添加export PGHOST=localhost至~/.bash_profile ● 将本机的hostname与1270 码力 | 15 页 | 2.07 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储 表‘SALES’ 表‘SALES’ ■ 更适合压缩 ■ 查询部分列时速度快 ■ 不同列可以使用不同压缩方式 Elimination 03 动态分区裁剪 公共表达式的下推 高效处理相关子查询 超过8年的投资,多位博士的长期贡献 基于Cascades / Volcano框架, Goetz Graefe 优化分布式大数据系统中特别复杂的查询 18 Madlib: 迭代并行模型训练 Master model = init(…) WHILE model not converged model = SELECT processing - 联机事务处理 出色的OLTP特性 天生的优势 ● 行式存储 ● 索引 ● 直接分发 ● 完整的增删改 Greenplum 6 增强 ● 并发修改、删除 ● 系统性的优化事务和锁 26 Pivotal Confidential–Internal Use Only 行式存储 表‘SALES’ 表‘SALES’ ■ 更适合OLTP负载 ■ 高效更改和删除0 码力 | 52 页 | 4.48 MB | 1 年前3
Greenplum 精粹文集SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 的两篇著名论文 发表后引起业界的关注,一篇是关于 GFS 分布式文件系统,另外一篇 是关于 MapReduce 并行计算框架的理论,分布式计算模式在互联网 行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 下午3:38 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 来 了, 在 X86 集 群 上 实 现 自 动 的 并 行 计 算, 无 论 是 后 来 的 MapReduce 计算框架还是 MPP(海量并行处理)计算框架,最终还 是需要软件来实现,Greenplum google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Post0 码力 | 64 页 | 2.73 MB | 1 年前3
Brin Index主Greenplum 7中的理论与实现Inc. 1 Confidential │ ©2021 VMware, Inc. Greenplum中文社区 https://cn.greenplum.org 博文 · 资料 · 文档 · 项目 Confidential │ ©2021 VMware, Inc. 3 Confidential │ ©2021 VMware, Inc. Brin Index 在Greenplum0 码力 | 32 页 | 1.04 MB | 1 年前3
Greenplum 排序算法Greenplum中文社区 https://cn.greenplum.org 博文 · 资料 · 文档 · 项目 Greenplum内核揭秘之排序算法 5 ● 内排序算法 ● 外排序算法 ● Greenplum TupleSort ● 排序在Greenplum中的应用 Outline 6 ● 冒泡排序 ● 插入排序 ● 快速排序 ● 堆排序 ● 基数排序 内排序算法0 码力 | 52 页 | 2.05 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享分布式数据库:线性扩展,支持上百物理节点 企业级数据库:全球大客户超过 1000+ 安装集群 百万行源代码,超过10年的全球研发投入 开源数据库(greenplum.org),良性生态系统 5 Pivotal Confidential–Inter nal Use Only 5 © Copyright 2013 Pivotal. All rights reserved. Greenplum 多级容错机制 无共享大规模并行处理 先进的查询优化器 多态存储系统 客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 任务管理 服务 加载 & 数据联邦 高速数据加载 近实时数据加载 任意系统数据访问 存储 & 数据访问 混合存储引擎(行存&列存) 支持高效更新和删除 AO 主要为插入而优化 表‘SALES’ 11月 列存储 行存储 7月 一年前 二年前 外部表 历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中 无缝查询所有数据 Text, CSV, Binary, Avro, Parquet 格式 6月 5月 10月 9月 8月 用户自定义数据存储格式 14 Pivotal Confidential–Inter0 码力 | 44 页 | 8.35 MB | 1 年前3
共 24 条
- 1
- 2
- 3













