云原生虚拟数仓PieCloudDB Database产品白皮书OpenPie.com ©2023 OpenPie All Right Reserved . 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 PieCloudDB,云原生虚拟数仓 PieCloudDB 产品概述 PieCloudDB 产品架构 PieCloudDB 求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 4 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。 PieCloudDB 核心服务层,提供了并行数据处理能力,拥有元数据节点、计算节点、存储节点以及云原生管控平台节 点等共四种角色,具体说明如下: 1. 元数据节点: 提供元数据服务,如元数据存储共享、分布式锁、多版本管理、多集群并发、高可用以 及用户权限等功能; 2. 计算节点: 无状态节点(包括 Coordinator0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB Database 产品白皮书 20230penPieAIIRight Reserved, Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 piecloudDB,云原生虚拟数仓 PieCloudDB 产品概述 PieCloudDB 产品架构 PieCloudDB 产品特性 PieCloudDB 产品核心技术 PieCloudDB8 ioor mauaeaa 和 i Gartner: 数据库中国市场指南 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数 PieCloudDB,运用全新 eMPP (elastic Massive Parallel Processing) 分布式技术,旨在为企业提供包含实时处理、 移级扩缩容、弹性计算、集成数据分析等强大功能的云上数据存储和计算引擎,助力企业实现数据价值最大化。 pieCloudDB 为企业构建坚如般石的虚拟数仓,以云资源最优化配置实现无限数据计算可能,基于新一代数仓虚拟 化,提供云数仓智能化解决方案0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 扩缩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 我们需要一个云原生数据库 为什么选择Postgres? • 关于Postgres • 公司中⽴,开源协议友好,国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展,插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持 (原⽣或者插件) • 采⽤度和流⾏度持续上升 • 优秀的⽣态 • 我们的选择 • 很多功能不⽤也没必要重新造轮⼦ • 和⼀流的产品和⼈才⼀起成⻓ • 团队深度理解Postgres内核代码,在社区参与诸多贡献 PieCloudDB 避免数据不⼀致 • 将来Time Travel查询“回收站”数据 ⽤户数据查询效率优化 • 远程访问数据要考虑的点:性能和成本 • 如何解决? • 数据和/或辅助信息缓存,同时⼀致性Hash减少数据移动 • 读取优化(⽐如异步并⾏等) • 计算优化(各种功能特性持续优化中) • 很多复杂OLAP查询如果不是IO瓶颈,不会受制于它 • …... 计算引擎之优化器 PieCloudDB0 码力 | 31 页 | 1.43 MB | 1 年前3
πDataCS赋能工业软件创新与实践拓数派⼤模型数据计算系统正式亮相,让AI模型更⼤更快 @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS的产品理念及定位 数据 计算 模型 灵活扩展的数据引擎,支持关系型数据库SQL、Spark/Flink 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数 和 私 域 数 据 结 合 开 发 垂 直 应 用 • CMU战略合作⼤模型基础理论,训练合作⼀事⼀议 πCloudDB πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (⼤模型)机器学习 向量数据计算 ⼤模型训练… 自研简墨存储 … 统⼀数据格式 | ⼀份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 | 特定领域(如神经⽹络) 的问题, 是⼤数据技术中的基⽯。让用户可以在不了解分布式底层细节的情况下,开发 分布式程序,以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 等都需要额外的组件,应对不同的场景需要安装对应的组件和依赖。 ⽣态丰富,对结构化数据、半0 码力 | 36 页 | 4.25 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS和 私 域 数 据 结 合 开 发 垂 直 应 用 • CMU战略合作大模型基础理论,训练合作一事一议 πCloudDB πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (大模型)机器学习 向量数据计算 大模型训练… 自 研 简 墨 存 储 … 统一数据格式 | 一份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 的问题,是 大数据技术中的基石。让用户可以在不了解分布式底层细节的情况下,开发分布 式程序,以一种可靠、高效、可伸缩的方式进行数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 等都需要额外的组件,应对不同的场景需要安装对应的组件和依赖。 生态丰富,对结构化数据、半 大模型数据计算系统,以云原生技术重构数据存储和计算,一份数据,多引擎数 据计算。主要解决海量数据的存储和实时计算问题,具备湖仓一体化的能力,用 户可根据实际情况去选择合适的数据计算引擎。 灵活可扩展的插件式引擎,组件少而精(All in One),提供3种计算引擎、1种 Lakehouse引擎,1个硬件加速器,应对各种场景的计算,同时也兼容Spark、 Flink等计算任务,保留用户的使用习惯。0 码力 | 29 页 | 7.46 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库运维成本 运维和DBA 传统分布式MPP架构痛点 @2022 OpenPie. All rights reserved. OpenPie Confidential 一个云原生实时大数据平台 平台底层:eMPP 云原生分布式SQL数据库 我们的目标:支持多模,serverless的实时大数据平台 关于PieCloudDB 使用简单 功能齐全 性能极致 安全可靠 @2022 OpenPie 享,避免拷贝和维护多份数据副本 存储 @2022 OpenPie. All rights reserved. OpenPie Confidential • ACID - 支持两种隔离级别:读已提交、可重复读 • 扩展性 - 事务管理器无单点性能瓶颈 • 隔离性 - 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 - 事务管理器支持对各类基础设施故障进行自动容错 事务 @2022 OpenPie0 码力 | 45 页 | 1.32 MB | 1 年前3
PieCloudDB 的云原生之路缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 扩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 传统分布式 MPP 架构痛点 IvorySQL开源数据库社区 PART 02 云原生数据库 PieCloudDB 简介 IvorySQL开源数据库社区 数据 计算 发现 数据:云上数据既是隔离也是连通。从安全的角度是隔离,同时具 愿 景 Big Data Promises Finally Come True IvorySQL开源数据库社区 • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难(后期升级部署困难) • 木桶效应 • 大量数据孤岛问题 计算层 存储层 MPP: Massive Parallel Processing eMPP : elastic Massive 唯一真理 o 全局只需要存储一份数据,通过共享存储来实现数据共享,避免拷 贝和维护多份数据副本 IvorySQL开源数据库社区 事务 • ACID 支持两种隔离级别:读已提交、可重复读 • 扩展性 事务管理器无单点性能瓶颈 • 隔离性 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 事务管理器支持对各类基础设施故障进行自动容错 IvorySQL开源数据库社区 030 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路我们需要一个云原生大数据平台 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 扩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 传统分布式MPP架构痛点 @2022 OpenPie. All rights reserved. OpenPie Confidential 数据 计算 发现 数据:云上数据既是隔离也是连通。从安全的⾓度是隔离,同时具 @2022 OpenPie. All rights reserved. OpenPie Confidential • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难(后期升级部署困难) • 木桶效应 • 大量数据孤岛问题 计算层 存储层 MPP: Massive Parallel Processing eMPP : elastic Massive 享,避免拷贝和维护多份数据副本 存储 @2022 OpenPie. All rights reserved. OpenPie Confidential • ACID - 支持两种隔离级别:读已提交、可重复读 • 扩展性 - 事务管理器无单点性能瓶颈 • 隔离性 - 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 - 事务管理器支持对各类基础设施故障进行自动容错 事务 @2022 OpenPie0 码力 | 44 页 | 1.64 MB | 1 年前3
大模型时代下向量数据库的设计与应用Vector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 存储向量和原始实体(文字/图像/语音)及元信息,并将它们关联起来 • 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法 PieCloudVector • 基于postgres打造的数据库内核 • 单机或分布式部署 • 支持完整的ACID 和产品创新迭代, 超过3000余家企业续约学习,是科技领域占有率第1的客座导师品牌,msup以 整合全球领先经验实践为己任,为中国产业快速发展提供智库。 高可用架构主要关注互联网架构及高可用、可扩展及高性能领域的知识传播。 订阅用户覆盖主流互联网及软件领域系统架构技术从业人员。 高可用架构系列 社群是一个社区组织,其精神是“分享+交流”,提倡社区的人人参与,同时从社 区获得高质量的内容。0 码力 | 28 页 | 1.69 MB | 1 年前3
云时代下多数据计算引擎的设计与实现机器学习 …… ... 按需增加 @2024 OpenPie. All rights reserved. OpenPie Confidential 产品子功能 太多分支? • 抽象的⽂件协议接⼝ • 抽象的⽂件格式接⼝ • 抽象的计算功能接⼝(e.g. data skipping) • 抽象的元数据存储接⼝ • …… 抽象和灵活的考虑贯穿所有的设计. Apache Arrow作为不少组件内存中间桥梁 @2024 OpenPie. All rights reserved. OpenPie Confidential Postgres 执行计算引擎 向量化执行引擎 FALLBACK 用(新引 擎功能暂不支持或者短期故障逃逸) 行处理,将来 HTAP 的 OLTP 用. @2024 OpenPie. All rights reserved. OpenPie Confidential 向量化 low-cardinality string aggregation • late materialization • Pipeline Engine、etc • 和JANM结合有大量可能的性能创新点. • 长远目标: • 赋能其他产品. • 赋能更多的计算形态. • 云上计算调度. @2024 OpenPie. All rights reserved. OpenPie Confidential0 码力 | 15 页 | 3.09 MB | 1 年前3
共 18 条
- 1
- 2













