代码优化 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum上云与优化

张广舟（明虚）阿里云高级专家 Greenplum上云与优化 — ApsaraDB for Greenplum介绍 2016Postgres中国用户大会目录 content ApsaraDB for GP的定位 ApsaraDB for GP的内核优化未来的规划 2016Postgres中国用户大会 ApsaraDB for GP的定位 2016Postgres中国用户大会 2016Postgres中国用户大会 ApsaraDB for GP的定位 ApsaraDB for GP = 简单、高效解决大数据分析需求 MPP + 列存压缩复杂SQL + 查询优化器本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 GP vs. RDS? Select count(*) from customer group Name Id status city 列存块 ….. 列存块列存 ≈索引 + index only 2016Postgres中国用户大会 GP vs. Hadoop? Orca优化器 SQL Runtime 本地存储 >5-30倍的性能优势 2016Postgres中国用户大会 ApsaraDB for GP vs. AWS Redshift? “有史以来卖的最好的云服务”

0 码力 | 26 页 | 1.13 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

...............................................................................6 GPORCA：Pivotal 查询优化器更新 ............................................................................................... 有云和私有云）中，也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计，能够处理多种并发混合工作负载的复杂查询。与旧式 MPP 数据库中常用的传统 RDBMS 查询优化器相比，GPORCA 大幅度地提高了查询性能。 Pivotal Greenplum 5：新一代数据平台作为重要的新版本，Pivotal 开源项目及其相关源代码的版本。这意味着，可以通过 greenplum.org 网站下载和编译的版本以及通过 Pivotal Network 分发的打包版本将具有相同的内核（只有个别微小差别）。这是两年来致力于与 PostgreSQL 8.3.23 集成的成果，目的在于扩展和融入以 Greenplum 为中心的生态系统和社区。为了更好地贴合 PostgreSQL 社区的模式，他们对代码库进行了重构，

0 码力 | 9 页 | 690.33 KB | 1 年前
3
Greenplum 精粹文集

Postgresql 是单实例数据库，怎么能在多个 X86 服务器上运行多个实例且实现并行计算呢？为了这，Interconnnect 大神器出现了。在那一年多的时间里，大咖们很大一部分精力都在不断的设计、优化、开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多个 Postgresql 实例的高效协同和并行计算，Interconnect 承载了并行查询计划生产和 Dispatch 于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远，很多分析功能都不支持，而 Greenplum 作为 MPP 数据分析平台，这些功能都是必不可少的。 2) Mysql 查询优化器对于子查询、复制查询如多表关联、外关联的支持等较弱，特别是在关联时对于三大 join 技术：hash join、merge join、nestloop join 的支持方面，Mysql 只支持最后一种 postgresql 的 contrib 中的一些常用模块 Greenplum 提供了编译后的模块开箱即用，如：oraface、postgis、pgcrypt 等，对于其它模块，用户可以自行将 contrib 下的代码与 Greenplum 的 include 头文件编译后，将动态 so 库文件部署到所有节点就可进行测试使用了。有些模块还是非常好用的，例如：oraface，基本上集成了 Oracle 常用的函数到

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展：PL/X、Extension、PXF、外部表机制 • 完善的标准支持：SQL、JDBC、ODBC • 集成数据平台：BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码，持续大力投入 • 敏捷方法学：快速迭代、持续发布、质量内建 PageRank 性能 2017.thegiac.com MADlib vs. Spark: 不不同的产品，侧重点不不同 MADlib Spark 算法库易用性需要编程查询优化成熟度稍差内存和流处理通过 Gemfire SQL 语法支持需要提升磁盘数据不是核心焦点并发性能不是核心焦点大数据关联不是核心焦点 2017 数据编辑/整理理之前之后性能提升 ● 181 ⾏行行代码 ● 75 分钟 ● 116 ⾏行行代码 ● 8 分钟 9.35x 特征编辑 ● 439 特征 ● 4,517 ⾏行行代码 ● 100 分钟 ● 934 特征 ● 1,438 ⾏行行代码 ● 30 分钟多 495 个特征，快 3.33x 信息价值

0 码力 | 58 页 | 1.97 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

......................................................................................... 10 并发控制优化 .................................................................................................. 容器化部署、运维，提供与业务容器一致的基于 K8S 的管理体验。 • 安全容器方案：iSulad+shimv2+StratoVirt 安全容器方案，相比传统 docker+qemu 方案，底噪和启动时间优化 40%。 • 双平面部署工具 eqqo：ARM/X86 双平面混合集群 0S 高效一键式安装，百节点部署时间<15min。 3. 探索场景创新边缘计算：发布面向边缘计算场景的版本 Greenplum 环境适用性强与其开放性、真正开源、社区活跃有密不可分的关系，一方面 Greenplum 能够独立于专用硬件加速提供高性能的纯软件数据平台，无需专用硬件，另外一方面包括核心代码在内的全部开源，社区人员或客户可最大化自由利用和借鉴 Greenplum 的优秀功能的同时，又可以反哺及影响总体产品研发方向，可以加快产品创新，基于此 Greenplum 有适用于多种环境的

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum 编译安装和调试

编译安装和调试本文先介绍如何从源代码编译安装Greenplum、初始化Greenplum集群。然后介绍SQL在 Greenplum中的典型执行路径，最后介绍一些调试技巧。源代码使用 Greenplum 开源社区最新源代码 6X_STABLE 分支： https://github.com/greenplum-db/gpdb，内核代码基于 PostgreSQL 9.4。目前（2019/04/23) 4。目前（2019/04/23) 主干分支的代码基于 PostgreSQL 9.4。合并到 PostgreSQL 9.5 的工作也已经开始，有关最新工作进展请参见：https://github.com/greenplum-db/gpdb-postgres-merge。 1. 从源代码编译 Greenplum Greenplum 目前官方支持 Redhat/Centos/SuSE/Ubuntu 有关更详细的信息请参考 README.macOS.md。 1.2 在 Redhat/Centos 系统上编译本小节以 RHEL7 为例介绍如何编译Greenplum。首先下载 Greenplum 源代码 $ git clone https://github.com/greenplum-db/gpdb Greenplum Database 编译和运行依赖于各种系统库和Python库。需要先安装这些依赖：

0 码力 | 15 页 | 2.07 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

................................................................................. - 182 - 关于 ORCA 优化器 ................................................................................................. ................................................................................. - 263 - 与数据导入相关的优化 ..................................................................................................  管理与监控管理节点：Master Master 作为 GP 的访问入口，主要负责处理客户端连接的访问以及用户提交的 SQL 语句的解析、生成执行计划、优化执行计划等。Master 不存储业务数据，只存储用于维持系统运行的全局信息，比如，对象定义信息，统计信息等，Master 非常重要，如果 Master 丢失，即便是原厂专业技术支持，也不能保证恢复所有信息。

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum分布式事务和两阶段提交协议

6 ● 事务实现原理和Write Ahead Logging（WAL） ● 分布式事务和两阶段提交的原理 ● Greenplum两阶段提交协议的实现 ● Greenplum两阶段提交协议的优化 Outline 7 事务的属性：ACID 属性含义数据库系统的实现 Atomic 原子性事务中的操作要么全部正确执行，要么完全不执行。 Write Ahead Logging，分布式事务：两阶段提交协议 DBMS Components 数据库管理系统组成图 Hector Garcia-Molina /Jeffrey D.Ullman/Jennifer Widom《数据库系统实现》查询编译器/ 优化器事务管理器 DDL编译器执行引擎日志和恢复并发控制索引/文件/ 记录管理器缓冲区管理器缓冲区锁表存储管理器存储查询计划对索引、文件和记录的请求页命令 21 ● 事务的实现原理和Write Ahead Log（WAL） ● 分布式事务和两阶段提交的原理 ● Greenplum两阶段提交协议的实现 ● Greenplum两阶段提交协议的优化 Outline 22 分布式事务 ● 分布式事务，分布式环境下的事务，是一个典型的嵌套式事务，一个事务由多个工作节点的子事务组成。 ● 必须保证参与分布式事务的各个场地（节点）的事务，要么全部提交，要么

0 码力 | 42 页 | 2.12 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

2008 标准，OLAP，JDBC/ODBC 支持ACID、分布式事务分布式数据库：线性扩展，支持上百物理节点企业级数据库：全球大客户超过 1000+ 安装集群百万行源代码，超过10年的全球研发投入开源数据库(greenplum.org)，良性生态系统 5 Pivotal Confidential–Inter nal Use Only 5 © Copyright Greenplum 架构 6 Pivotal Confidential–Inter nal Use Only 平台概况产品特性客户端访问和工具多级容错机制无共享大规模并行处理先进的查询优化器多态存储系统客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构并行数据流引擎高速软数据交换机制 MPP Scatter/Gather 流处理在线系统扩展查询列子集时速度快不同列可以使用不同压缩方式: gzip (1- 9), quicklz, delta, RLE 访问多列时速度快支持高效更新和删除 AO 主要为插入而优化表‘SALES’ 11月列存储行存储 7月一年前二年前外部表历史数据和不常访问的数据存储在 HDFS 或者其他外部系统中无缝查询所有数据 Text, CSV

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

卓越的OLAP特性列式存储分区、压缩高级特性递归查询、窗口函数集成分析多格式、多语言 Madlib: 机器学习数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器成熟稳定完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储表‘SALES’ 表‘SALES’ ■ 更适合压缩 rank() OVER w FROM employees WINDOW w as (PARTITION BY department ORDER BY salary DESC) ORCA优化器 Common Table Expression and Recursive Queries 02 Efficiently Processing Complex Correlated Elimination 03 动态分区裁剪公共表达式的下推高效处理相关子查询超过8年的投资，多位博士的长期贡献基于Cascades / Volcano框架, Goetz Graefe 优化分布式大数据系统中特别复杂的查询 18 Madlib: 迭代并行模型训练 Master model = init(…) WHILE model not converged model =

0 码力 | 52 页 | 4.48 MB | 1 年前
3

共 24 条前往

页

分类

语言

格式