pdf文档 云时代下多数据计算引擎的设计与实现

3.09 MB 15 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档介绍了云时代下多数据计算引擎的设计与实现,重点讲述了拓数派(OpenPie)推出的产品πDataCS,包括PieCloudDB这一云原生分布式分析型数据库。PieCloudDB支持多数据模态和多计算引擎,包括Postgres执行器、向量化执行引擎和Spark等。其设计注重抽象和灵活性,支持HTAP和多种存储协议。文档还提到了Apache Arrow在数据处理中的应用,以及在多个行业如IoT、金融、新能源和医疗等领域的落地应用。
AI总结
### 文档总结:《云时代下多数据计算引擎的设计与实现》 #### 公司概况 - **公司名称**:拓数派(OpenPie) - **成立时间**:2021年 - **使命**:数据计算,只为新发现 - **核心团队**:来自各大厂名校,具备丰富的数据库研发经验(如Greenplum、DB2、ClickHouse等) - **产品**:πDataCS多计算引擎,包括分布式数据库(PieCloudDB)和分布式向量数据库 - **应用领域**:已落地或正在落地的行业包括IoT、金融、新能源、医疗等 #### PieCloudDB 简介 - **类型**:云原生分布式分析型数据库 - **架构特点**: - 元数据、用户数据、计算完全分离 - 用户数据支持S3/HDFS/Posix存储 - 架构:Share Nothing on share storage - 外围产品支持丰富 -未来将支持单机和HTAP(融合事务与分析处理) - **Postgres生态**: - 软件交付版本:社区版、企业版、云上云(CoC)版 - 最新版本:v2.11 #### 多计算引擎设计 - **计算引擎组成**: - Postgres执行器 - 向量化执行引擎 - 向量数据库 - 单机和分布式计算 - Spark(客户依赖,跑批任务) - 机器学习等 - **设计理念**: - 抽象化和灵活性贯穿设计 - 主要抽象接口包括文件协议、文件格式、计算功能、元数据存储等 - Apache Arrow作为内存中间桥梁 - 按需增加新的计算引擎,支持多种计算形态 #### 长期目标与外延 - **长期目标**: - 赋能其他产品 - 支持更多计算形态(如云上计算调度) - **计算外延**: - 仓湖一体:支持开源表格式(如Iceberg on HDFS/S3) - 联邦查询 - 云上计算调度 - **性能创新点**: - 结合JANM(大数据计算系统云存储底座)有大量性能创新潜力 #### 总结 本文档围绕云时代多数据计算引擎的设计与实现,重点介绍了拓数派公司及其产品PieCloudDB的核心技术特点与应用场景。其设计理念强调抽象化、灵活性和多计算引擎的支持,布局广泛的生态系统和高效的计算能力,同时展望了未来的发展方向与技术创新。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 3 页请下载阅读 -
文档评分
请文明评论,理性发言.