主题扩展 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

πDataCS赋能工业软件创新与实践

拓数派⼤模型数据计算系统正式亮相，让AI模型更⼤更快 @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS的产品理念及定位数据计算模型灵活扩展的数据引擎，支持关系型数据库SQL、Spark/Flink 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统，以云原⽣技术重构数据存储和计算，⼀份数⼤模型数据计算系统，以云原⽣技术重构数据存储和计算，⼀份数据，多引擎数据计算。主要解决海量数据的存储和实时计算问题，具备湖仓⼀体化的能⼒，用户可根据实际情况去选择合适的数据计算引擎。灵活可扩展的插件式引擎，组件少⽽精（All in One），提供3种计算引擎、1种 Lakehouse引擎，1个硬件加速器，应对各种场景的计算，同时也兼容Spark、 Flink等计算任务，保留用户的使用习惯。弹性伸缩，支持多集群协同。存储层： Ø 存算分离，存储独立扩展。 Ø ⾼可靠，支持跨多数据中⼼的灾备复制。 Ø 节约成本，全局数据唯⼀存储，通过共享存储来实现数据共享，避免拷贝和维护多份数据副本。事务管理： Ø 存两种隔离级别：Read Committed、Repeatable Read Ø ⾼性能事务管理器，支持自动扩展。 Ø ⾼可靠性，支持故障自动容错。 Ø 租户之间的事务管理器完全隔离，互不⼲扰。

0 码力 | 36 页 | 4.25 MB | 1 年前
3
PieCloudDB Database 产品白皮书

传统数仓的痛点很多受欢迎的数据库仓库均为分布式数据库，而典型分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位，通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时，所有机器同时并行计算，理论上最把计算时间降低到单机部署的 1/n (n为机器数量) 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析，提供标准的 SQL 接口，且内置各种分析工具，并原生兼容 Postgres 生态，可以很好地处理地理信息数据和文本，未来会扩展其他 Ap| 接口，支持常见的数仓的数据分析和人工智能、数据科学等功能。 Openl SN Pie | PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓产品白皮书 (弹性大规模并行计算) 架构让数据计算可以自动化弹性伸缩，用户可以根据计算任务灵活的分配最优数量的节点执行查询。同时PieCloudDB的多集群能力可轻松面对高并发场景，企业可以根据业务的并发需求动态扩展 PieCloudDB 集群，满足业务应用的并发需求。 Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓产品白皮书 SN PieCloudDB 实现了全自动

0 码力 | 17 页 | 2.68 MB | 1 年前
3
云原生虚拟数仓PieCloudDB Database产品白皮书

传统数仓的痛点很多受欢迎的数据库仓库均为分布式数据库，而典型的传统分布式数据库系统大多是 MPP（大规模并行计算）架构。 MPP 架构的数据库以 PC 服务器为单位，通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录， MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时，所有机器同时并行计算，理论上最高可以把计算时间降低到单机部署的 1/n（n为机器数量），节省了海量数据的处理时间。用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析，提供标准的 SQL 接口，且内置各种分析工具，并原生兼容 Postgres 生态，可以很好地处理地理信息数据和文本，未来会扩展其他 API 接口，支持常见的数仓的数据分析和人工智能、数据科学等功能。 PieCloudDB 产品概述拓数派旗下旗舰产品PieCloudDB，是以对行业顶级数据库的抽象思考和设计原则复用为技术路线，可将物理数仓整合 eMPP（弹性大规模并行计算）架构让数据计算可以自动化弹性伸缩，用户可以根据计算任务灵活的分配最优数量的节点执行查询。同时PieCloudDB的多集群能力可轻松面对高并发场景，企业可以根据业务的并发需求动态扩展 PieCloudDB 集群，满足业务应用的并发需求。 8 原生多租户支持人性化的管控平台 PieCloudDB 实现了全自动 Analyze，可以在数据发生变化的时候自动完成Analyze，及时生成准确的统计信息。

0 码力 | 17 页 | 2.02 MB | 1 年前
3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

分布式架构导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式流式传输 ETL本质是不同系统（数据组织形式）之间的数据移动 ETL • 便宜可扩展的对象存储，各系统通用 • 最好的 ETL 就是不需要 ETL，各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式模式 • INSERT 模式，支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式，步骤1 Ø PieCloudDB Foreign Table，postgres扩展，需要为数据源单独开发 Ø 控制节点上读取数据源信息，决定是否拆分，生成任务信息 Ø 计算节点上根据任务信息读取数据源，返回raw数据和元信息 CREATE FOREIGN TABLE foreign_table(meta

0 码力 | 29 页 | 5.24 MB | 1 年前
3
大模型时代下向量数据库的设计与应用

Vector产品，聚焦于大模型与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验，在加入拓数派前曾就职于开源大数据平台Greenplum团队，担任外部数据源访问框架，对象存储访问扩展，ETL工具等产品模块的研发，并曾参与PostgreSQL多个版本的代码贡献，拥有丰富的存储模块核心开发和性能优化等实践经验。邱培峰拓数派向量数据库负责人拓数派：大模型数据计算系统先行者和产品创新迭代，超过3000余家企业续约学习，是科技领域占有率第1的客座导师品牌，msup以整合全球领先经验实践为己任，为中国产业快速发展提供智库。高可用架构主要关注互联网架构及高可用、可扩展及高性能领域的知识传播。订阅用户覆盖主流互联网及软件领域系统架构技术从业人员。高可用架构系列社群是一个社区组织，其精神是“分享+交流”，提倡社区的人人参与，同时从社区获得高质量的内容。

0 码力 | 28 页 | 1.69 MB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

e代表弹性(elastic) 完善的Postgres生态为什么选择Postgres？ • 关于Postgres • 公司中⽴，开源协议友好，国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展，插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持 (原⽣或者插件） • 采⽤度和流⾏度持续上升 • 优秀的⽣态 • 我们的选择 • 很多功能不⽤也没必要重新造轮⼦ • 和⼀流的产品和⼈才⼀起成⻓ • 团

0 码力 | 31 页 | 1.43 MB | 1 年前
3
PieCloudDB 的云原生之路

愿景 Big Data Promises Finally Come True IvorySQL开源数据库社区 • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难（后期升级部署困难） • 木桶效应 • 大量数据孤岛问题计算层存储层 MPP: Massive Parallel Processing eMPP : elastic Massive 唯一真理 o 全局只需要存储一份数据，通过共享存储来实现数据共享，避免拷贝和维护多份数据副本 IvorySQL开源数据库社区事务 • ACID 支持两种隔离级别：读已提交、可重复读 • 扩展性事务管理器无单点性能瓶颈 • 隔离性不同租户之间的事务管理器是完全隔离的，不会相互影响 • 容错性事务管理器支持对各类基础设施故障进行自动容错 IvorySQL开源数据库社区 03

0 码力 | 47 页 | 1.80 MB | 1 年前
3
PieCloudDB云原生数仓虚拟化之路

@2022 OpenPie. All rights reserved. OpenPie Confidential • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难（后期升级部署困难） • 木桶效应 • 大量数据孤岛问题计算层存储层 MPP: Massive Parallel Processing eMPP : elastic Massive 享，避免拷贝和维护多份数据副本存储 @2022 OpenPie. All rights reserved. OpenPie Confidential • ACID - 支持两种隔离级别：读已提交、可重复读 • 扩展性 - 事务管理器无单点性能瓶颈 • 隔离性 - 不同租户之间的事务管理器是完全隔离的，不会相互影响 • 容错性 - 事务管理器支持对各类基础设施故障进行自动容错事务 @2022 OpenPie

0 码力 | 44 页 | 1.64 MB | 1 年前
3
兼容龙蜥的云原生大模型数据计算系统：πDataCS

大模型数据计算系统，以云原生技术重构数据存储和计算，一份数据，多引擎数据计算。主要解决海量数据的存储和实时计算问题，具备湖仓一体化的能力，用户可根据实际情况去选择合适的数据计算引擎。灵活可扩展的插件式引擎，组件少而精（All in One），提供3种计算引擎、1种 Lakehouse引擎，1个硬件加速器，应对各种场景的计算，同时也兼容Spark、 Flink等计算任务，保留用户的使用习惯。具备向量搜索能力的传统数据库 πCloudVector • 冗余数据、过度的数据搬运、分布式组件之间的数据缺乏一致性 • 专业技能的额外劳动力成本、额外的许可成本 • 有限的查询语言能力、可编程性和可扩展性 • 有限的工具集成 • 较差的数据完整性和可用性打破专用向量数据库的局限性 • 统一的数据平台，在动态扩缩容过程中无需移动数据，充分保障数据的一致性 • 使用简单，学习成本低，无需额外投入

0 码力 | 29 页 | 7.46 MB | 1 年前
3
PieCloudDB Database V2.8 Release Note

n 新增 janm_block_file_size_read，用以获取 Block 文件大小。 n 新增 pdb_database_sizes，在 pdb_database_tools 扩展中用于收集所有数据库大小。

0 码力 | 4 页 | 144.49 KB | 1 年前
3

共 12 条前往

页

分类

语言

格式