Greenplum开源MPP数据库介绍
列存、压缩,适合OLAP Ø 外部表: HDFS,S3,文件, 网络,命令,流式数据… Confidential │ ©2022 VMware, Inc. 16 Greenplum生态:Madlib Ø 在数据库内做机器学习 Ø 非常多的算法库 Confidential │ ©2022 VMware, Inc. 17 GPText Ø MPP化的Apache Solr,用于全文检索和文本分析 Ø 举例: Command Center Ø Web UI 监控和管理 Ø 实时性能监控 Ø 可视化计划 Ø 基于规则的任务管理 Ø 向客户推荐性能优化操作 Ø 报警和通知 Confidential │ ©2022 VMware, Inc. 20 Greenplum Streaming Server Ø ETL工具 (10+TB/hour) Ø 并行导入流式数据 Ø Kafka和其它流式来源0 码力 | 23 页 | 4.55 MB | 1 年前3Greenplum 6新特性: 在线扩容工具GPexpand剖析
Greenplum 6新特性: 在线扩容工具GPexpand剖析 杜佳伦 (jdu@pivotal.io) 大纲 • Greenplum 集群部署 • GPExpand简介与具体用法 • Greenplum 6中GPExpand的改进与实现 Greenplum 集群部署 Greenplum 集群部署 • gp_segment_configuration 字段名 描述 dbid distclass 分布列的操作类 GPExpand简介与具体用法 • GPExpand是Greenplum的扩容工具,可以为集群增加新的节 点来支持更大容量的存储和更高的计算能力。 • 随着Greenplum一起安装发布,在$GPHOME/bin下面,和其 他辅助工具,如gpstart,gpstop,gpactivatestandby一样,是一个 用python写的命令行脚本。 GPExpand简介与具体用法 —将所有需要扩容的表都存到这个表里 ▪ expansion_progress —记录扩容时的状态 GPExpand简介与具体用法 • 数据重分布 – GPExpand – 会遍历postgres数据库下面gpexpand.status_detail表对所有表执行 ALTER TABLE {schema.table} EXPAND TABLE; GPExpand简介与具体用法 • 清理 – gpexpand0 码力 | 37 页 | 1.12 MB | 1 年前3PostgreSQL和Greenplum 数据库故障排查
2018年PostgreSQL中国技术大会 PostgreSQL和Greenplum 数据库故障排查 赵振平 zzp@taryartar.com 北京太阳塔信息科技有限责任公司 2018年PostgreSQL中国技术大会 自我介绍 微信号:laohouzi999 2018年PostgreSQL中国技术大会 • 赵振平,太阳塔技术总监 • 电子工业出版社签约作家 • 腾讯最具价值专家(TVP) 腾讯最具价值专家(TVP) • 计算机畅销书作家 • 贵州省省管专家 • 国家首批大数据高级职称 • 出版了技术专著《Oracle数据库精讲与疑难解析》 • 出版了技术专著《成功之路:Oracle 11g学习笔记》 • 出版了技术专著《IT架构实录》 微信号:laohouzi999 2018年PostgreSQL中国技术大会 微信号:laohouzi999 2018年PostgreSQL中国技术大会 数据定 义命令,比如CREATE,ALTER,和DROP 语句。mod记录所有ddl 语句,加上数据修改语句INSERT,UPDATE等,all记录所有执行的 语句,将此配置设置为all可跟踪整个数据库执行的SQL语句。 log_duration = off 记录每条SQL语句执行完成消耗的时间,将此配置设置为on, 用于统计哪些SQL语句耗时较长。 记录校验点的信息 log_checkpoints0 码力 | 84 页 | 12.61 MB | 1 年前3Greenplum on Kubernetes 容器化MPP数据库
Greenplum on Kubernetes 容器化MPP数据库 AGENDA 云数据库背景 云数据库实现方案 Greenplum on Kubernetes Greenplum Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 数据共享 ● 云数据库市场巨大 ● 云数据库增速巨大 ● DBasS的需求 ● 跨云的需求 云数据库实现方案 云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云 云数据库实现方案 ● 全新数据库 ○ Snowflake Snowflake ● 原有数据库架构升级 ○ Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Apache Spark ○ CockroachDB ○ Apache HAWQ 云数据库存储方案 ● 块存储 ○ 文件系统接口 ● 对象存储 ○ 成本低 ○ 扩展性强 ○ 访问延迟高 Greenplum on Kubernetes Network0 码力 | 33 页 | 1.93 MB | 1 年前3深度揭秘Greenplum开源数据库透明加密
深度揭秘Greenplum开源数据库 透明加密 Greenplum 研发工程师 王淏舟 1. 我们所面临的问题 2. 基于pgcypto的数据加密方案 3. GPDB数据透明加密方案设计 4. GPDB数据透明加解密流程 5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb GPDB GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 运行模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 管理集群 • 数据备份恢复 管理模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 管理模式 GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 GPDB为单独数据库软件 • 非一体机 • 缺少对硬件和系统的控制 潜在风险(一) GPDB的数据安全0 码力 | 48 页 | 10.19 MB | 1 年前3Greenplum 分布式数据库内核揭秘
VMware, Inc. Agenda 2 - Greenplum 分布式数据库简介 - Greenplum 集群化概述 - 分布式数据存储与多态存储 - 分布式查询优化器与执行器 - Greenplum 中文社区 3 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据库简介 Features Confidential │ ©2021 VMware 型业务的混合负载。 Greenplum 分布式数据库简介 5 Confidential │ ©2021 VMware, Inc. Greenplum 集群化概述 Coordinator/Segment, Primary/Mirror Confidential │ ©2021 VMware, Inc. 6 Greenplum 集群化概述 数据库的组成 l Coordinator/Segment l Greenplum 集群通常由一个 Coordinator 节点、一 个 Standby Coordinator 节点以及多个 Segment 节点组成 l Coordinator 是整个数据库的入口,客户端只会连接 至 Coordinator 节点,并执行相关的查询操作 l Standby 节点为 Coordinator 提供高可用支持 l Mirror 则为 Segment 提供高可用支持0 码力 | 31 页 | 3.95 MB | 1 年前3Pivotal Greenplum 5.0 - 开源MPP 数据库的不二之选
开源 MPP 数据库的不二之选: Pivotal Greenplum 5.0 姚延栋 yyao@pivotal.io 开放源代码 SQL 企业级数据库 生态系统 MPP 高速数据加载 多态存储 表‘SALES’ 列存储 行存储 1月 一年前 二年前 外部表 12月 11月 4月0 码力 | 18 页 | 913.39 KB | 1 年前3Greenplum数据库架构分析及5.x新功能分享
Greenplum 数据库架构分析及5.x 新功能分享 杨瑜 Pivotal中国研发中心 2 Pivotal Confidential–Inter nal Use Only 日程 Greenplum 数据库(GPDB)简介 Greenplum 数据库(GPDB)架构 Greenplum 数据库(GPDB)组件 Greenplum 数据库(GPDB)执行流程 Greenplum 数据库(GPDB)5.x 3 Pivotal Confidential–Inter nal Use Only 3 © Copyright 2013 Pivotal. All rights reserved. Greenplum 简介 4 Pivotal Confidential–Inter nal Use Only GPDB:为大数据存储、计算、挖掘而设计 标准 标准 SQL 数据库:ANSI SQL 2008 标准,OLAP,JDBC/ODBC 支持ACID、分布式事务 分布式数据库:线性扩展,支持上百物理节点 企业级数据库:全球大客户超过 1000+ 安装集群 百万行源代码,超过10年的全球研发投入 开源数据库(greenplum.org),良性生态系统 5 Pivotal Confidential–Inter nal0 码力 | 44 页 | 8.35 MB | 1 年前3Greenplum 介绍
制约和绑定, 从而允许客户灵活选择最适合的方案,降低未来的迁移代价,而开发、运维人员无需要学 习新的数据库处理技术,人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台:支持各种数据源,包括 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格 C 等。 ● 支持标准的平台:支持 SQL、JDBC 和 ODBC 等行业标准。经过半个多世纪的发展, SQL 成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL 接口进行数据分析,大大降低了数据分 析的门槛;MADlib 内建于数据库内,使用 MPP 的优势,提高了分析的效率;MADlib 可 以在全量数据而不是抽样数据上进行分析,提高了精度。 ● 开放源代码且持续大力投入的平台: 2017 年 Pivotal 在 github0 码力 | 3 页 | 220.42 KB | 1 年前3Greenplum机器学习⼯具集和案例
thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: Compatibility (Hyper-Q) 2017.thegiac.com Greenplum ⼤大数据平台 • 一次打包,到处运行:裸机、私有云、公有云 • 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com0 码力 | 58 页 | 1.97 MB | 1 年前3
共 27 条
- 1
- 2
- 3