协议扩展机制 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

πDataCS赋能工业软件创新与实践

拓数派⼤模型数据计算系统正式亮相，让AI模型更⼤更快 @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS的产品理念及定位数据计算模型灵活扩展的数据引擎，支持关系型数据库SQL、Spark/Flink 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统，以云原⽣技术重构数据存储和计算，⼀份数 πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (⼤模型)机器学习向量数据计算⼤模型训练… 自研简墨存储 … 统⼀数据格式 | ⼀份数据多引擎计算｜兼容主流云存储格式和协议智能新硬件技术 πFPGA 数据存储｜虚拟数仓 | 特定领域（如神经⽹络）私有云 Mundo元数据管理系统统⼀Catalog @2024 OpenPie. All rights reserved ⼤模型数据计算系统，以云原⽣技术重构数据存储和计算，⼀份数据，多引擎数据计算。主要解决海量数据的存储和实时计算问题，具备湖仓⼀体化的能⼒，用户可根据实际情况去选择合适的数据计算引擎。灵活可扩展的插件式引擎，组件少⽽精（All in One），提供3种计算引擎、1种 Lakehouse引擎，1个硬件加速器，应对各种场景的计算，同时也兼容Spark、 Flink等计算任务，保留用户的使用习惯。

0 码力 | 36 页 | 4.25 MB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

MPP架构：分布式，海量数据并行处理 • e代表弹性(elastic) 完善的Postgres生态为什么选择Postgres？ • 关于Postgres • 公司中⽴，开源协议友好，国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展，插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持 (原⽣或者插件） • 采⽤度和流⾏度持续上升 • 优秀的⽣态 • 我们的选择 • 很多功能不⽤也没必要重新造轮⼦ • 的形式存储到 FoundationDB 元数据管理 • 临时状态存储（如lock等) 也放在FoundationDB • 依赖于FoundationDB的KV特性、可串⾏化事务、watcher机制 • 多个集群（虚拟数仓）可以共享⼀份元数据 • FoundationDB⾼可⽤设计、备份恢复保证元数据的可靠性和可⽤性元数据管理缓存 • ⺫的： • 减轻FoundationDB集群负担

0 码力 | 31 页 | 1.43 MB | 1 年前
3
PieCloudDB Database 产品白皮书

传统数仓的痛点很多受欢迎的数据库仓库均为分布式数据库，而典型分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位，通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时，所有机器同时并行计算，理论上最把计算时间降低到单机部署的 1/n (n为机器数量) 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析，提供标准的 SQL 接口，且内置各种分析工具，并原生兼容 Postgres 生态，可以很好地处理地理信息数据和文本，未来会扩展其他 Ap| 接口，支持常见的数仓的数据分析和人工智能、数据科学等功能。 Openl SN Pie | PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓产品白皮书标准，完全支持SQL: 1992标准、大部分的SQL: 1999和部分SQL: 2003标准 (主要支持其中的OLAP 特性) ，支持窗口函数等高阶表达式。此外， PieCloudDB 容 PostgreSQL 协议，支持标准数据库接口 (0DBC、JDBC等) 。对5QL的全面支持和多种过程语言 (Procedure Language) 的支持使得 PieCloudDB 可以无锋集成业内常见的提取/ 转换/加载

0 码力 | 17 页 | 2.68 MB | 1 年前
3
云原生虚拟数仓PieCloudDB Database产品白皮书

传统数仓的痛点很多受欢迎的数据库仓库均为分布式数据库，而典型的传统分布式数据库系统大多是 MPP（大规模并行计算）架构。 MPP 架构的数据库以 PC 服务器为单位，通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录， MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时，所有机器同时并行计算，理论上最高可以把计算时间降低到单机部署的 1/n（n为机器数量），节省了海量数据的处理时间。用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析，提供标准的 SQL 接口，且内置各种分析工具，并原生兼容 Postgres 生态，可以很好地处理地理信息数据和文本，未来会扩展其他 API 接口，支持常见的数仓的数据分析和人工智能、数据科学等功能。 PieCloudDB 产品概述拓数派旗下旗舰产品PieCloudDB，是以对行业顶级数据库的抽象思考和设计原则复用为技术路线，可将物理数仓整合标准，完全支持SQL: 1992标准、大部分的SQL: 1999和部分SQL: 2003标准（主要支持其中的OLAP 特性），支持窗口函数等高阶表达式。此外， PieCloudDB 兼容 PostgreSQL 协议，支持标准数据库接口（ODBC、JDBC 等）。对SQL的全面支持和多种过程语言（Procedure Language）的支持使得 PieCloudDB 可以无缝集成业内常见的提取/

0 码力 | 17 页 | 2.02 MB | 1 年前
3
兼容龙蜥的云原生大模型数据计算系统：πDataCS

πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (大模型)机器学习向量数据计算大模型训练… 自研简墨存储 … 统一数据格式 | 一份数据多引擎计算｜兼容主流云存储格式和协议智能新硬件技术 πFPGA 数据存储｜虚拟数仓 | 特定领域（如神经网络）私有云 Mundo元数据管理系统统一Catalog 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题，是大模型数据计算系统，以云原生技术重构数据存储和计算，一份数据，多引擎数据计算。主要解决海量数据的存储和实时计算问题，具备湖仓一体化的能力，用户可根据实际情况去选择合适的数据计算引擎。灵活可扩展的插件式引擎，组件少而精（All in One），提供3种计算引擎、1种 Lakehouse引擎，1个硬件加速器，应对各种场景的计算，同时也兼容Spark、 Flink等计算任务，保留用户的使用习惯。具备向量搜索能力的传统数据库 πCloudVector • 冗余数据、过度的数据搬运、分布式组件之间的数据缺乏一致性 • 专业技能的额外劳动力成本、额外的许可成本 • 有限的查询语言能力、可编程性和可扩展性 • 有限的工具集成 • 较差的数据完整性和可用性打破专用向量数据库的局限性 • 统一的数据平台，在动态扩缩容过程中无需移动数据，充分保障数据的一致性 • 使用简单，学习成本低，无需额外投入

0 码力 | 29 页 | 7.46 MB | 1 年前
3
PieCloudDB Database V2.1 版本说明

Block Skipping 的优化机制：数据库运行查询语句时，通过计算每个块（block）中列聚集信息，在执行期间跳过非必要的数据块，减少数据读取量提高查询性能。 • 极速 Analyze（Smart Analyze）： PieCloudDB 实现极速 Analyze，更快的生成精确的查询规划统计信息，从而在查询时可以生成更优的查询计划。 • 全新的缓存机制：在 PieCloudDB 的计算层，各个计算节点针对元数据都设计了的计算层，各个计算节点针对元数据都设计了多层缓存结构。其中，针对元数据，PieCloudDB 实现了元数据层全新的缓存机制，有效减少了访问元数据服务器带来的网络通信开销和元数据服务器的负载，提高元数据访问的速度。 • 可观察性增强：可得到更多的查询时系统的统计信息，包括元数据管理、S3 等。 • Vacuum 优化：在元数据层通过快速过滤不需要 vacuum 的数据，从而实现 vacuum

0 码力 | 3 页 | 257.15 KB | 1 年前
3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现

@2022 OpenPie. All rights reserved. OpenPie Confidential • 将元组以key-value的形式存储到 FoundationDB • 使用原有的机制实现mvcc • 使用foundationdb key的自然排序实现index • Xmin：创建这个tuple的事务 id • Xmax：删除这个tuple的事务id • ctid：指向update的下一个tuple

0 码力 | 43 页 | 1.14 MB | 1 年前
3
云时代下多数据计算引擎的设计与实现

机器学习 …… ... 按需增加 @2024 OpenPie. All rights reserved. OpenPie Confidential 产品子功能太多分支？ • 抽象的⽂件协议接⼝ • 抽象的⽂件格式接⼝ • 抽象的计算功能接⼝（e.g. data skipping） • 抽象的元数据存储接⼝ • …… 抽象和灵活的考虑贯穿所有的设计. Apache Arrow作为不少组件内存中间桥梁

0 码力 | 15 页 | 3.09 MB | 1 年前
3
如何从零开始参与技术社区？

πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (⼤模型) 机器学习向量数据计算⼤模型训练… 自研简墨存储 … 统⼀数据格式 | ⼀份数据多引擎计算｜兼容主流云存储格式和协议智能新硬件技术 πFPGA 数据存储｜虚拟数仓 | 特定领域（如神经⽹络） Mundo元数据管理系统统⼀Catalog 公有云私有云政务云⾏业云信创云 • DataSharing

0 码力 | 25 页 | 871.00 KB | 1 年前
3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

分布式架构导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式流式传输 ETL本质是不同系统（数据组织形式）之间的数据移动 ETL • 便宜可扩展的对象存储，各系统通用 • 最好的 ETL 就是不需要 ETL，各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式模式 • INSERT 模式，支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式，步骤1 Ø PieCloudDB Foreign Table，postgres扩展，需要为数据源单独开发 Ø 控制节点上读取数据源信息，决定是否拆分，生成任务信息 Ø 计算节点上根据任务信息读取数据源，返回raw数据和元信息 CREATE FOREIGN TABLE foreign_table(meta

0 码力 | 29 页 | 5.24 MB | 1 年前
3

共 17 条前往

页

分类

语言

格式