Greenplum on Kubernetes
容器化MPP数据库Greenplum on Kubernetes 容器化MPP数据库 AGENDA 云数据库背景 云数据库实现方案 Greenplum on Kubernetes Greenplum Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云 云数据库实现方案 ● 全新数据库 ○ Snowflake ● 原有数据库架构升级 ○ Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Apache Spark ○ CockroachDB ○ Apache HAWQ 云数据库存储方案 ● 块存储 ○ 文件系统接口 ● 对象存储 ○ Segment Instance Segment 5 (Mirror) 容器化Greenplum ? + = 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联 ○ 本机网络 ○ 跨机网络 ● 容器化Greenplum部署策略 ○ Master部署策略 ○ Primary0 码力 | 33 页 | 1.93 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum........................................................................................... 11 利用容器实现安全分析 ............................................................................................ 功能,策略配置淘汰的冷内存交换到用户态存储,用户无感知,性能 优于内核态 swap。 2. 夯实云化基座 容器操作系统 KubeOS:云原生场景,实现 OS 容器化部署、运维,提供与业务容器一致的基于 K8S 的管理体验。 • 安全容器方案:iSulad+shimv2+StratoVirt 安全容器方案,相比传统 docker+qemu 方案,底噪和启动时间 优化 40%。 • 双平面部署工具 Embedded,镜像大小<5M,启动时间<5S。 4. 繁荣社区生态 友好卓面环境:UKUDDEXfce 卓面环境,丰富社区卓面环境生态。 • 欧拉 DevKit:支持操作系统迁移、兼容性评估、简化安全配置 secPaver 等更多开发工具。 Greenplum:新一代 HTAP 数据平台 Greenplum 自 2006 年发布第一个版本以来,就以精巧架0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 介绍并行存储、并行通讯、并行计算和优化技术。同时,Greenplum 还兼容 SQL 标准,具备强大、 高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的混合负载,从而帮助客户真正打通业务-数据-洞见-业务的闭环。 一次打包到处运行的平台:部署灵活,不受限于硬件环境和平台,无论裸机、私有云、公 有云均可部署。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定, 从而允许客户灵活选择最适合的方案,降低未来的迁移代价,而开发、运维人员无需要学 习新的数据库处理技术,人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台:支持各种数据源,包括 Kafka、Hadoop、HIVE、 HBase、 ableau、Anaconda、 Microstrategy、Boundless、Zattset、Datometry 等,涵盖 ETL、商业智能、高级分析、可视化、 集成分析、GIS 数据处理、迁移、安全和管理等各个领域。 更多信息请访问 greenplum.cn。0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商203 204 205 206 访问 Hive 访问 HBase 使⽤ 使⽤ pg_dump 迁移数据 迁移数据 安装 greenplum-db-clients 使⽤ pg_dump 导出数据 使⽤ psql 重建数据 利⽤ 利⽤ hdfs 外部表迁移数据 外部表迁移数据 1. 在原 greenplum 集群中创建 hdfs pxf 可写外部表 2. 将原 greenplum 概览 产品架构 快速上⼿ 操作指南 访问UDW数据仓库 数据导⼊ 开发指南 udw优化指南 表膨胀 UDW中Json类型 接⼊第三⽅ BI ⼯具 UDW 使⽤案例 Pxf 扩展功能 迁移数据 使⽤ pg_dump 使⽤ pxf 外部表 FAQs 数据仓库价格 概览 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 6/206 (切换到template1数据库) DROP DATABASE product; 3、模式管理 、模式管理 数据库模式(schema)是包含了⼀系列数据库对象(表,数据类型,⾃定义函数)集合的命名容器。⼀个数据库可以有多个模式。不同模式不共享命名空间。public 模式是在创建数据库之后就 会默认创建的,每个⽤⼾都有权限在这个 schema 创建对象,如果不指定 schema 那么就会默认创建到这⾥。0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum 精粹文集也正在积极的拥抱云计算,Cloud Foundry 的 PaaS 云平 台正在技术考虑把 Greenplum MPP 做为 DaaS 服务来提供,对于 Mesos 或其它云计算技术的爱好者,也可以考虑采用容器镜像技术 + 集群资源框架管理技术来部署 Greenplum, 从而可以实现在公共计算 资源集群上的 MPP 敏捷部署和资源共享与分配。 总之,相信沿着开放、开源、云计算的路线继续前行,Greenplum 集群中最为常见的故障类型,而 SAS 盘相比 SATA 盘在性能和稳定 性上都明显的高于 SATA 盘 。 ·RAID 卡一定要带 cache,否则做完 RAID 后写的性能会非常差, 曾遇到一客户,把 GP 迁移到更大容量、更多磁盘的机器后,集群 性能反而下降,就是因为新采购的机器 RAID 卡没有 cache。 Big Date2.indd 26 16-11-22 下午3:38 Greenplum indd 30 16-11-22 下午3:38 Greenplum 精粹文集 31 2. 数据模型设计的重要性 实施 Greenplum 的项目,有的是从其他数据库产品迁移过来的数据模 型,有的是新设计的数据模型。无论是哪种情况,设计时请重点关注 Greenplum 的特性,要充分发挥 Greenplum 所长。 ·分布键: 均匀为第一大原则,选取更有业务意义的字段,并非必须选择原库0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1情况以决定资源的分配和是否应该让新的事务开始排队。 使用基于外部组件的资源组来管理外部组件的 CPU 和内存资源。这种资源组,使 用 cgroup 来管理外部组件的 CPU 和内存的使用总量。 注意:GP 的容器化部署,例如 Greenplum for Kubernetes(GP4K),可能会创建 一组嵌套的 cgroup 配置来管理系统资源,这可能会影响 GP 的资源组管理 CPU 的使 用率、Core PostgreSQL 相似。如果一个查询使用了外部组件(如 PL/Container),该查询将会有两个部分, 一部分是查询本身在 GP 数据库中运行,而另一部分 UDF 则在 PL/Container 容器中 运行,在 GP 数据库中运行的查询本身由 ROLE 的资源组来管理,在 PL/Container 运行的 UDF 由 PL/Container 的资源组管理,后者在 pg_stat_activity 几乎已经见不到了,所以,这里也不做介绍了。目前,已知的所有跨大版本的升级,都 是不能直接升级的,比如,4.3升级到5版本或者6版本,5版本升级到6版本,这些都 不能直接升级,必须通过重建集群,备份并恢复DDL,迁移数据,来间接的完成升级操 作。 小版本升级 小版本升级,指的是,Catalog版本号一致的版本之间的升级操作,按照 Greenplum的版本规则,4.3系列是一个大版本,5系列是一个大版本,6系列是一个0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 分布式数据库内核揭秘Consistent Hash)分布策略。 哈希分布 当增加一个新的节点时,需要对原有数据进行重新映射。一致性哈希则保证了在重新映射的过程追 中,tuple 要么保留在原有节点中,要么迁移至新的节点中,从而实现最小数据迁移。 Confidential │ ©2021 VMware, Inc. 11 随机分布则采用随机的方式将数据存储到不同的节点。当不确定一张表的哈希分布键,或者是不存 在合理的避免0 码力 | 31 页 | 3.95 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议分布式事务的创建、状态迁移等 • QD向QE发起两阶段提交 • 分布式快照 • QD向QE发送全局快照信息 • Writer QE和Reader QE共享本地快照信息 • distributed log:分布式事务提交日志 • 用于判断分布式事务是否提交,作用和PG 的commit log类似,基于simple LRU实现 • 分布式死锁检测 • 本地事务的管理:创建、提交、状态迁移 等 •0 码力 | 42 页 | 2.12 MB | 1 年前3
基于 Greenplum 打造SaaS化电商服务平台2016 2017 2018 2019 2014原始阶段 2016.4全新报表界面:梳理业务、开发报表 2016.9自建GP集群,上线工作量统计 2018.3HDB4PG 2017.1报表全面迁移至GP 2017.6集群拆分 2018.9全面切换HDB4PG 2018.6ADB储备、2019.7上线 HDB4PG •数据压缩 •弹性扩容 •成熟稳定 •性能良好 •阿里云支持 THANKS0 码力 | 7 页 | 547.94 KB | 1 年前3
Greenplum资源管理器Resource Group • What’s more? – ALTER RESOURCE GROUP • 延迟生效 • merge proposed value to real value – 动态迁移事务到其他group • 一致性 • 死锁 – Disk IO control? • buffered write? – Network IO control? – ... 2017 年象行中国(杭州0 码力 | 21 页 | 756.29 KB | 1 年前3
共 14 条
- 1
- 2













