PieCloudDB云原生数仓虚拟化之路
PieCloudDB的云原生数仓虚拟化之路 吴疆 Openpie产品和推广总监 @2022 OpenPie. All rights reserved. OpenPie Confidential @2022 OpenPie. All rights reserved. OpenPie Confidential 杭州拓数派科技发展有限公司(又称“OpenPie”),以“Data Computing 引领数据计算时代到来 1月 PieCloudDB 爱琴海版本发布 构建坚如磐石的eMPP云原生数仓 3月 2023拓数派战略暨新产品发布会 重磅发布PieCloudDB「云上云」版 云原生数仓虚拟化 引领数据计算时代到来 拓数派基于阿里云构建公共云数据仓库服务 正式上线 @2022 OpenPie. All rights reserved. OpenPie Confidential https://app CONTENTS @2022 OpenPie. All rights reserved. OpenPie Confidential 云解决了什么? 借助于云上分布式存储,解耦存储 借助于云上虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据平台上云已是大势所趋 用户专注于使用,运维等工作交给IaaS/SaaS厂商 @2022 OpenPie. All rights0 码力 | 44 页 | 1.64 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
eMPP (弹性大规模并行计算)的云原生虚拟数仓 产品白皮书 www.OpenPie.com ©2023 OpenPie All Right Reserved . 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 PieCloudDB,云原生虚拟数仓 PieCloudDB 产品架构 PieCloudDB 产品特性 PieCloudDB 产品核心技术 PieCloudDB 产品优势 关于OpenPie 附录:术语表 3 3 3 4 5 6 7 7 8 11 13 15 16 目 录 行 业 背 景 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时,所有机器同时并行计算,理论上最高可以 把计算时间降低到单机部署的 1/n(n为机器数量),节省了海量数据的处理时间。0 码力 | 17 页 | 2.02 MB | 1 年前3云原生虚拟数仓 PieCloudDB ETL 方案设计与实现
ETL方案设计与实现 邱培峰 拓数派 技术专家 云原生虚拟数仓PieCloudDB 大连理工大学软件工程本科 pgsql@qiupf.dev 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发 PieCloudDB 分布式架构简介 ETL 简述 PieCloudDB ETL方案设计 Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 03 FROM (SELECT meta, raw FROM foreign_table LATERAL JOIN formatter(raw) AS r) sub; • INSERT 模式,步骤4 插入目标表 INSERT INTO table SELECT r.a, r.b+r.c, func(r.d) … FROM (SELECT meta, raw FROM foreign_table LATERAL formatter(raw) AS r) sub; INSERT 模式,步骤5: INSERT INTO history SELECT meta FROM foreign_table 插入历史表,支持断点续传 • Merge/Upsert 模式,支持 CDC 场景 • 数据需要包含操作字段 (OP),即 INSERT/UPDATE/DELETE • 数据需要包含逻辑主键 (LPK),当逻辑主键不存在时做插入,已0 码力 | 29 页 | 5.24 MB | 1 年前3云原生虚拟数仓 PieCloudDB 的架构和关键模块实现
reserved. OpenPie Confidential • 全面的逻辑优化(谓词下推,子查询子链接提升,外连接消除) • 纯粹基于代价的物理优化 • 全面的数据分布特性描述,分布式代价估算,高效分布式表连接 • 多阶段的聚集 专门为复杂查询设计的优化器 分布式环境高效执行器 • 多阶段执行模型 • 流式数据重分布 @2022 OpenPie. All rights reserved. OpenPie 的移动 • Segment节点不直接访问系统表,事务和锁 • 在扩张时只需要在新的虚拟机节点上部署二进制并向元数据服务注册 @2022 OpenPie. All rights reserved. OpenPie Confidential • Master 节点和 FoundationDB 通过事务的方式协同实现了分布式的事务和锁 • 系统表以 mstore 的方式存储在 FoundationDB rights reserved. OpenPie Confidential 云原生特性的实现途径 • 弹性伸缩的集群 • 完全无状态的Segment节点 • Multi-cluster • 独立的系统表 • 分布式的锁和事务 @2022 OpenPie. All rights reserved. OpenPie Confidential @2022 OpenPie. All rights reserved0 码力 | 43 页 | 1.14 MB | 1 年前3PieCloudDB:云原生分布式虚拟数仓的诞生之旅
OpenPie Confidential PieCloudDB:云原⽣分布式 虚拟数仓的过去、现在和未来 郭罡 拓数派 @2022 OpenPie. All rights reserved. OpenPie Confidential 关于我 • 18年+基础软件⼀线经验 • 9年:Unix/Linux应⽤和内核开发、虚拟化(芯⽚KVM内核⽀持)、⾼速 ⽹络开发(NIC驱动、IB、DPDK、OVS 毕业于中国科学技术⼤学(专业语⾳识别). @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 • ⼀款云原⽣分布式虚拟数仓 • Data: Shared Storage (S3/HDFS/NAS) • Meta: Shared on NoSQL (当前是FoundationDB) • Postgres⽣态 • 软件交付版本 All rights reserved. OpenPie Confidential 构建之路 - 数据访问加速 • S3访问考虑(提升性能 & 降低成本) • 使⽤缓存,⻓远来说分布式缓存. • 虚拟数仓:⼀致性Hash存储缓存⽂件. • Data Skipping (⽐如Block Skipping,预聚集,etc). • S3访问通⽤优化:并⾏化、预读、异步、Mpp引擎"steal". •0 码力 | 24 页 | 2.01 MB | 1 年前3云原生虚拟数仓PieCloudDB Database社区版安装部署手册V2.1
0 码力 | 42 页 | 3.71 MB | 1 年前3PieCloudDB Database 产品白皮书
基灿异并行计算) 的云原生虚拟数仓 产品白皮书 ENRANSGenpPie.com 20230penPieAIIRight Reserved, Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 piecloudDB,云原生虚拟数仓 PieCloudDB PieCloudDB 产品特性 PieCloudDB 产品核心技术 PieCloudDB8 产品优势 关于OpenpPie 附录: 术语表 11 13 15 16 openpie | PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 百岗 行业背景 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信息技术的发展,互联网应 年数据显示,云数据库已占据整体数据库市场份额的40%,2022年云数据库营收数据将占据数据 库整体市场的半数以上。 OpenpPie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 SN 中 Market Guide for DBMS, China > 岛0 码力 | 17 页 | 2.68 MB | 1 年前3PieCloudDB 的云原生之路
引领数据计算时代到来 1月 PieCloudDB 爱琴海版本发布 构建坚如磐石的 eMPP 云原生数仓 3月 2023拓数派战略暨新产品发布会 重磅发布 PieCloudDB「云上云」版 云原生数仓虚拟化引领数据计算时代到来 拓数派基于阿里云构建公共云数据仓库服务 正式上线 IvorySQL开源数据库社区 免费试用 PieCloudDB 云上云版:https://app.pieclouddb 的架构特点 03 总结 04 IvorySQL开源数据库社区 PART 01 数据库的云原生远景 IvorySQL开源数据库社区 云解决了什么? 借助于云上分布式存储,解耦存储 借助于云上虚拟化技术和之上的 IaaS,解耦 计算 池化资源,按需使用 基础软件尤其是数据平台上云已是大势所趋 用户专注于使用,运维等工作交给 IaaS/SaaS 厂商 IvorySQL开源数据库社区 为企业构建「坚如磐石」的云原生虚拟数仓 IvorySQL开源数据库社区 虚 拟 化 技 术 创 新 为 行 业 高 质 量 发 展 注 入 加 速 度 云 计 算 时 代 的 到 来 数 据 计 算 时 代 的 到 来 服务器整合,降低服务器硬件成本 云计算平台统一运维降低成本 服务器资源池可用空间增大 数据资源池可用空间增大 虚拟机动态迁移对硬件无感知 数仓整合,降低服务器硬件或者虚拟机成本 数据计算平台统一0 码力 | 47 页 | 1.80 MB | 1 年前3πDataCS赋能工业软件创新与实践
杭州拓数派科技发展有限公司 ,简称“OpenPie” 企业简介 l OpenPie是立⾜于国内的基础数据计算领域⾼科技创新机构; l 拥有强⼤的数据库内核研发团队、数据科学团队和数字化 转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎⽅ 向进⾏创新,全面拥抱AI技术趋势。 企业⽂化 使命:数据计算,只为新发现 愿景:成为立⾜中国基础数据计算领域的全球顶级⾼科技创新机构 价值观 2023拓数派战略暨新产品发布会 重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原⽣虚拟数仓 拓数派基于阿里云构建公共云数据仓库服务 正式上线 6月 上榜 EqualOcean 2022年源自中国值 得关注的新锐全球化科技品牌 与东吴证券在数仓虚拟化和信创领域展开试点合作 12月 创始⼈冯雷再度荣登数字商业周刊“年度智造中国商业领袖” 4月 冯雷被评为杭州市所有的独角兽和准独角兽企 冯雷被评为杭州市所有的独角兽和准独角兽企 业中唯⼀“年度创业⼈物” 打造⼤模型时代 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派⼊选中国信通院“铸基计划”「⾼质量数字化 转型产品及服务全景图」 拓数派再次携WAIC创建智能驾驶科技分会 杭州萧⼭区政府“⼀事⼀议”支持政策获 批 9月 拓数派上榜《毕马威中国-未来独角兽0 码力 | 36 页 | 4.25 MB | 1 年前3Greenplum 6: 混合负载的理想数据平台
完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储 表‘SALES’ 表‘SALES’ ■ 更适合压缩 ■ 查询部分列时速度快 ■ 不同列可以使用不同压缩方式 amount cust_id 表 orders 14 Pivotal Confidential–Internal Use Only Segment 1A Segment COUNT(*) FROM orders WHERE order_date >= ‘Oct 1 2007’ AND order_date <= ‘Oct 31 2007’ 仅仅扫描 orders 表2017年十月份数据所在的分区C Segment 1A Segment 1B Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment Segment 3A Segment 3B Segment 3C Segment 3D 15 Pivotal Confidential–Internal Use Only 递归查询 表‘SALES’ 表‘SALES’ ■ 层次结构 ■ 树状结构 WITH RECURSIVE included_parts(sub_part, part, quantity) AS ( SELECT0 码力 | 52 页 | 4.48 MB | 1 年前3
共 128 条
- 1
- 2
- 3
- 4
- 5
- 6
- 13