PieCloudDB Database 产品白皮书
字企业的典型使用场景 * 每天有数个小的计算任务,需要数个节点 * 每周有一个中等计算任务,需要数十个节点 * 每月有一个大的计算任务,需要数干个节点 面对这些不断变化的业务需求和计算任务,企业产生了更高的需求: * 无限空间: 能够提供无限存储空间, 。 灵活伸编: 随时根据业务需求弹性增加集群和工作节点 * 资源回收: 在集群完成计算任务时,可以进行资源回收,节省成本 充分结合云计算、大规模并行处理技术的云原生虚拟数仓 PiecloudDB 邓 画 云原生虚拟数仓 杭州拓数派科技发展有限公司 (又称“Openpie”) 认为计算技术目前经历了三代平台: @大型机时代; @PC机时 代; 和 回云计算时代。每一代计算平台的变更,都带来了数据计算技术的突破性创新的可能性。随着计算技术从大型 机时代变革为PC机时代,PC机逐渐取代大型机,极大地降低计算门极,计算资源日渐丰富,数据计算技术突破性创 PieCloudDB 采用高效并行的方式进行数据加载和处理,处理速度随节点增加而提升,支持流数据快速加载。 PieCloudDB 的eMPP (弹性大规模并行计算) 架构让数据计算可以自动化弹性伸缩,用户可以根据计算任务灵活的分 配最优数量的节点执行查询。同时PieCloudDB的多集群能力可轻松面对高并发场景,企业可以根据业务的并发需求动 态扩展 PieCloudDB 集群,满足业务应用的并发需求。 Openpie0 码力 | 17 页 | 2.68 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
每天有数个小的计算任务,需要数个节点 每周有一个中等计算任务,需要数十个节点 每月有一个大的计算任务,需要数千个节点 无限空间: 灵活伸缩: 资源回收: 这些优势使云原生数据库得以降低计算成本,提供无限丰富的计算资源,实现分钟级的伸缩性和真正的高可用,释放 出数据计算产生更多智能的机会。以下是云原生时代数字企业的典型使用场景: 面对这些不断变化的业务需求和计算任务,企业产生了更高的需求: 应运而生, PieCloudDB 帮助企业摆脱了 PC 架 构的限制,满足云原生数字时代需求,成为更好的选择。 能够提供无限存储空间, 随时根据业务需求弹性增加集群和工作节点 在集群完成计算任务时,可以进行资源回收,节省成本 6 PieCloudDB 云原生虚拟数仓 杭州拓数派科技发展有限公司(又称“OpenPie”)认为计算技术目前经历了三代平台: ①大型机时代;②PC机时 代;和 PieCloudDB 采用高效并行的方式进行数据加载和处理,处理速度随节点增加而提升,支持流数据快速加载。 PieCloudDB 的 eMPP(弹性大规模并行计算)架构让数据计算可以自动化弹性伸缩,用户可以根据计算任务灵活的分 配最优数量的节点执行查询。同时PieCloudDB的多集群能力可轻松面对高并发场景,企业可以根据业务的并发需求动 态扩展 PieCloudDB 集群,满足业务应用的并发需求。 80 码力 | 17 页 | 2.02 MB | 1 年前3πDataCS赋能工业软件创新与实践
用户可根据实际情况去选择合适的数据计算引擎。 灵活可扩展的插件式引擎,组件少⽽精(All in One),提供3种计算引擎、1种 Lakehouse引擎,1个硬件加速器,应对各种场景的计算,同时也兼容Spark、 Flink等计算任务,保留用户的使用习惯。 ⽣态完善,支持主流的开发语⾔和数据科学⼯具,支持多模数据处理(结构化、 半结构化以及非结构化),提供标准的SQL接⼝和API,完成各种复杂场景的数 据处理,业务开发周期短,现存的代码基本可以⽆缝迁移和复用。 运用元数据-计算-数据分离的三层架构,实现云上存储资源与 计算资源的独立管理。云上计算资源可弹性分配,有查询计 算任务的时候按需启动,按照使用时间和规模计算成本。 eMPP分布式专利技术 在云上,PieCloudDB利用eMPP(elastic Massive Parallel Processing)架构,实现多集群并发执⾏任务。企业可灵活 进⾏扩缩容,随着负载的变化实现⾼效的伸缩,轻松应对 PB级海量数据。 池上创建虚 拟数仓; 2. 虚拟数仓是由执⾏器和协调器等资源组成,协调器和执⾏器在操作系统 层面来看,他们就是⼀个个的进程,这些进程分布在不同的计算节点上; 3. 如图中示例,业务应用的计算任务数量增加或需要处理的数据量变⼤, 对应的计算资源(主要是CPU、MEM)也会增加,根据计算资源需求, 虚拟数仓可以在线弹性的扩缩容,在此图示例中,执⾏器可以从原来的3 个变成4个,缩容也是同样的原理;0 码力 | 36 页 | 4.25 MB | 1 年前3云原生虚拟数仓 PieCloudDB ETL 方案设计与实现
多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 • 错误处理 • 任务调度总控 pdbconduct • 数据源提取(插件/客户端工具) • 计算节点 Foreign Table, Formatter • 任务调度总控 pdbconduct • 独立运行,通常在 PieCloudDB 控制节点上 • 按需启动数据源(插件)导出 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式,步骤1 Ø PieCloudDB Foreign Table,postgres扩展,需要为数据源单独开发 Ø 控制节点上读取数据源信息,决定是否拆分,生成任务信息 Ø 计算节点上根据任务信息读取数据源,返回raw数据和元信息 CREATE FOREIGN TABLE foreign_table(meta text, raw bytea); SELECT meta,0 码力 | 29 页 | 5.24 MB | 1 年前3PieCloudDB 的云原生之路
计算 发现 数据:云上数据既是隔离也是连通。从安全的角度是隔离,同时具 备数据共享的能力。 例如:投资管理系统和财务管理系统可以各自管理,按需分享。 计算:云上计算资源可以弹性分配。有查询计算任务的时候按需启动, 按照使用时间和规模计算成本,而不是购买大量服务器静置为不确定 的使用额外支付成本。 发现:在云上,对计算模型以更低成本提供指数级的存储和计算资源, 帮助甲方的业务模型发现新洞察或者提高精准度,从而建立竞争壁垒。 运用元数据-计算-数据分离的三层架构,实现云上存储资源 与计算资源的独立管理。云上计算资源可弹性分配,有查询 计算任务的时候按需启动,按照使用时间和规模计算成本。 eMPP 分布式专利技术 在云上,PieCloudDB 利用 eMPP(elastic Massive Parallel Processing)架构,实现多集群并发执行任务。企 业可灵活进行扩缩容,随着负载的变化实现高效的伸缩, 轻松应对 PB 级海量数据。 FoundationDB 使用 FoundationDB Key 的自然排序实 现索引 IvorySQL开源数据库社区 02 分布式引擎 IvorySQL开源数据库社区 计算 • MPP o 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 IvorySQL开源数据库社区0 码力 | 47 页 | 1.80 MB | 1 年前3PieCloudDB云原生数仓虚拟化之路
计算 发现 数据:云上数据既是隔离也是连通。从安全的⾓度是隔离,同时具 备数据共享的能⼒。 例如:投资管理系统和财务管理系统可以各⾃管理,按需分享。 计算:云上计算资源可以弹性分配。有查询计算任务的时候按需启动, 按照使⽤时间和规模计算成本,⽽不是购买⼤量服务器静置为不确定 的使⽤额外⽀付成本。 发现:在云上,对计算模型以更低成本提供指数级的存储和计算资源, 帮助甲方的业务模型发现新洞察或者提高精准度,从⽽建⽴竞争壁垒。 运用元数据-计算-数据分离的三层架构,实现云上存储资源与 计算资源的独⽴管理。云上计算资源可弹性分配,有查询计 算任务的时候按需启动,按照使⽤时间和规模计算成本。 eMPP分布式专利技术 在云上,PieCloudDB利⽤eMPP(elastic Massive Parallel Processing)架构,实现多集群并发执行任务。企业可灵活 进⾏扩缩容,随着负载的变化实现⾼效的伸缩,轻松应对 PB级海量数据。 只 为 新 发 现 02 分布式引擎 @2022 OpenPie. All rights reserved. OpenPie Confidential 计算 • MPP • 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 @2022 OpenPie0 码力 | 44 页 | 1.64 MB | 1 年前3兼容龙蜥的云原生大模型数据计算系统:πDataCS
户可根据实际情况去选择合适的数据计算引擎。 灵活可扩展的插件式引擎,组件少而精(All in One),提供3种计算引擎、1种 Lakehouse引擎,1个硬件加速器,应对各种场景的计算,同时也兼容Spark、 Flink等计算任务,保留用户的使用习惯。 生态完善,支持主流的开发语言和数据科学工具,支持多模数据处理(结构化、 半结构化以及非结构化),提供标准的SQL接口和API,完成各种复杂场景的数据 处理,业务开发周期短,现存的代码基本可以无缝迁移和复用。 运用元数据-计算-数据分离的三层架构,实现云上存储资源与 计算资源的独立管理。云上计算资源可弹性分配,有查询计算 任务的时候按需启动,按照使用时间和规模计算成本。 eMPP分布式专利技术 在云上,PieCloudDB利用eMPP(elastic Massive Parallel Processing)架构,实现多集群并发执行任务。企 业可灵活进行扩缩容,随着负载的变化实现高效的伸缩,轻松 应对PB级海量数据。0 码力 | 29 页 | 7.46 MB | 1 年前3AGI 趋势下的云原生数据计算系统
云原生存储架构,元数据、数据和计算全分离 核 心 技 术 突 破 • 数据一次入库永不出户,数据可用不可见,跑算力不跑数据 • 全链路加密保证数据安全 • JANM存储引擎等技术有效组织数据配合大模型精调 u 首创云原生eMPP架构 u 国内数仓虚拟化技术提出者 云原生数据计算系统 PieDataCS数据底座为AI大模型赋能 云原生数据计算系统 虚拟数仓引擎设计 云原生数据计算系统 分布式优化器设计0 码力 | 26 页 | 2.84 MB | 1 年前3如何从零开始参与技术社区?
Mundo元数据管理系统 统⼀Catalog 公有云 私有云 政务云 ⾏业云 信创云 • DataSharing 技术原⽣支持数据要素流转 • TimeTraveling 等技术有效组织数据配合⼤模型精调 @2024 OpenPie. All rights reserved. OpenPie Confidential 国内总贡献次数 拓数派 278 124 拓 数 派 团 队 深 耕 国 际 技0 码力 | 25 页 | 871.00 KB | 1 年前3云时代下多数据计算引擎的设计与实现
reserved. OpenPie Confidential 多计算引擎 内置计算引擎 Postgres执行器 全新的向量化执行引 擎 向量数据库 单机和分布式 Spark 客户依赖 跑批任务 机器学习 …… ... 按需增加 @2024 OpenPie. All rights reserved. OpenPie Confidential 产品子功能 太多分支? • 抽象的⽂件协议接⼝0 码力 | 15 页 | 3.09 MB | 1 年前3
共 13 条
- 1
- 2