πDataCS赋能工业软件创新与实践拓数派⼤模型数据计算系统正式亮相,让AI模型更⼤更快 @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS的产品理念及定位 数据 计算 模型 灵活扩展的数据引擎,支持关系型数据库SQL、Spark/Flink 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数 πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (⼤模型)机器学习 向量数据计算 ⼤模型训练… 自研简墨存储 … 统⼀数据格式 | ⼀份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 | 特定领域(如神经⽹络) 私有云 Mundo元数据管理系统 统⼀Catalog @2024 OpenPie. All rights reserved ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎 数据计算。主要解决海量数据的存储和实时计算问题,具备湖仓⼀体化的能⼒, 用户可根据实际情况去选择合适的数据计算引擎。 灵活可扩展的插件式引擎,组件少⽽精(All in One),提供3种计算引擎、1种 Lakehouse引擎,1个硬件加速器,应对各种场景的计算,同时也兼容Spark、 Flink等计算任务,保留用户的使用习惯。0 码力 | 36 页 | 4.25 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现MPP架构:分布式,海量数据并行处理 • e代表弹性(elastic) 完善的Postgres生态 为什么选择Postgres? • 关于Postgres • 公司中⽴,开源协议友好,国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展,插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持 (原⽣或者插件) • 采⽤度和流⾏度持续上升 • 优秀的⽣态 • 我们的选择 • 很多功能不⽤也没必要重新造轮⼦ • 的形式存储 到 FoundationDB 元数据管理 • 临时状态存储(如lock等) 也放在FoundationDB • 依赖于FoundationDB的KV特性、可串⾏化事务、watcher机制 • 多个集群(虚拟数仓)可以共享⼀份元数据 • FoundationDB⾼可⽤设计、备份恢复保证元数据的可靠性和可 ⽤性 元数据管理缓存 • ⺫的: • 减轻FoundationDB集群负担0 码力 | 31 页 | 1.43 MB | 1 年前3
PieCloudDB Database 产品白皮书 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时,所有机器同时并行计算,理论上最 把计算时间降低到单机部署的 1/n (n为机器数量) 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析,提供标准的 SQL 接口,且内置各种分析工 具,并原生兼容 Postgres 生态,可以很好地处理地理信息数据和文本,未来会扩展其他 Ap| 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 Openl SN Pie | PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 标准,完全支持SQL: 1992标准、大部分的SQL: 1999和部分SQL: 2003标准 (主要支 持其中的OLAP 特性) ,支持窗口函数等高阶表达式。此外, PieCloudDB 容 PostgreSQL 协议,支持标准数据库接 口 (0DBC、JDBC等) 。 对5QL的全面支持和多种过程语言 (Procedure Language) 的支持使得 PieCloudDB 可以无锋集成业内常见的提取/ 转换/加载0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时,所有机器同时并行计算,理论上最高可以 把计算时间降低到单机部署的 1/n(n为机器数量),节省了海量数据的处理时间。 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析,提供标准的 SQL 接口,且内置各种分析工 具,并原生兼容 Postgres 生态,可以很好地处理地理信息数据和文本,未来会扩展其他 API 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 PieCloudDB 产品概述 拓数派旗下旗舰产品PieCloudDB,是以对行业顶级数据库的抽象思考和设计原则复用为技术路线,可将物理数仓整合 标准,完全支持SQL: 1992标准、大部分的SQL: 1999和部分SQL: 2003标准(主要支 持其中的OLAP 特性),支持窗口函数等高阶表达式。此外, PieCloudDB 兼容 PostgreSQL 协议,支持标准数据库接 口(ODBC、JDBC 等)。 对SQL的全面支持和多种过程语言(Procedure Language)的支持使得 PieCloudDB 可以无缝集成业内常见的提取/0 码力 | 17 页 | 2.02 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCSπCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (大模型)机器学习 向量数据计算 大模型训练… 自 研 简 墨 存 储 … 统一数据格式 | 一份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 | 特定领域(如神经网络) 私有云 Mundo元数据管理系统 统一Catalog 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是 大模型数据计算系统,以云原生技术重构数据存储和计算,一份数据,多引擎数 据计算。主要解决海量数据的存储和实时计算问题,具备湖仓一体化的能力,用 户可根据实际情况去选择合适的数据计算引擎。 灵活可扩展的插件式引擎,组件少而精(All in One),提供3种计算引擎、1种 Lakehouse引擎,1个硬件加速器,应对各种场景的计算,同时也兼容Spark、 Flink等计算任务,保留用户的使用习惯。 具备向量搜索能力的传统数据库 πCloudVector • 冗余数据、过度的数据搬运、分布式组件之间的 数据缺乏一致性 • 专业技能的额外劳动力成本、额外的许可成本 • 有限的查询语言能力、可编程性和可扩展性 • 有限的工具集成 • 较差的数据完整性和可用性 打破专用向量数据库的局限性 • 统一的数据平台,在动态扩缩容过程中无需移动 数据,充分保障数据的一致性 • 使用简单,学习成本低,无需额外投入0 码力 | 29 页 | 7.46 MB | 1 年前3
PieCloudDB Database V2.1 版本说明Block Skipping 的优化机制:数据库运行查询语句时,通过计算每个块 (block)中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性 能。 • 极速 Analyze(Smart Analyze): PieCloudDB 实现极速 Analyze,更快的生 成精确的查询规划统计信息,从而在查询时可以生成更优的查询计划。 • 全新的缓存机制:在 PieCloudDB 的计算层,各个计算节点针对元数据都设计了 的计算层,各个计算节点针对元数据都设计了 多层缓存结构。 其中,针对元数据,PieCloudDB 实现了元数据层全新的缓存机制,有效减少了访问元 数据服务器带来的网络通信开销和元数据服务器的负载,提高元数据访问的速度。 • 可观察性增强:可得到更多的查询时系统的统计信息,包括元数据管理、S3 等。 • Vacuum 优化:在元数据层通过快速过滤不需要 vacuum 的数据,从而实现 vacuum0 码力 | 3 页 | 257.15 KB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现@2022 OpenPie. All rights reserved. OpenPie Confidential • 将元组以key-value的形式存储到 FoundationDB • 使用原有的机制实现mvcc • 使用foundationdb key的自然排序实现index • Xmin:创建这个tuple的事务 id • Xmax:删除这个tuple的事务id • ctid:指向update的下一个tuple0 码力 | 43 页 | 1.14 MB | 1 年前3
云时代下多数据计算引擎的设计与实现机器学习 …… ... 按需增加 @2024 OpenPie. All rights reserved. OpenPie Confidential 产品子功能 太多分支? • 抽象的⽂件协议接⼝ • 抽象的⽂件格式接⼝ • 抽象的计算功能接⼝(e.g. data skipping) • 抽象的元数据存储接⼝ • …… 抽象和灵活的考虑贯穿所有的设计. Apache Arrow作为不少组件内存中间桥梁0 码力 | 15 页 | 3.09 MB | 1 年前3
如何从零开始参与技术社区?πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (⼤模型) 机器学习 向量数据计算 ⼤模型训练… 自研简墨存储 … 统⼀数据格式 | ⼀份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 | 特定领域(如神经⽹络) Mundo元数据管理系统 统⼀Catalog 公有云 私有云 政务云 ⾏业云 信创云 • DataSharing0 码力 | 25 页 | 871.00 KB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现分布式架构 导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 模式 • INSERT 模式,支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式,步骤1 Ø PieCloudDB Foreign Table,postgres扩展,需要为数据源单独开发 Ø 控制节点上读取数据源信息,决定是否拆分,生成任务信息 Ø 计算节点上根据任务信息读取数据源,返回raw数据和元信息 CREATE FOREIGN TABLE foreign_table(meta0 码力 | 29 页 | 5.24 MB | 1 年前3
共 17 条
- 1
- 2













