云时代下多数据计算引擎的设计与实现
3.09 MB
15 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档介绍了云时代下多数据计算引擎的设计与实现,重点讲述了拓数派(OpenPie)推出的产品πDataCS,包括PieCloudDB这一云原生分布式分析型数据库。PieCloudDB支持多数据模态和多计算引擎,包括Postgres执行器、向量化执行引擎和Spark等。其设计注重抽象和灵活性,支持HTAP和多种存储协议。文档还提到了Apache Arrow在数据处理中的应用,以及在多个行业如IoT、金融、新能源和医疗等领域的落地应用。 | ||
AI总结 | ||
### 文档总结:《云时代下多数据计算引擎的设计与实现》
#### 公司概况
- **公司名称**:拓数派(OpenPie)
- **成立时间**:2021年
- **使命**:数据计算,只为新发现
- **核心团队**:来自各大厂名校,具备丰富的数据库研发经验(如Greenplum、DB2、ClickHouse等)
- **产品**:πDataCS多计算引擎,包括分布式数据库(PieCloudDB)和分布式向量数据库
- **应用领域**:已落地或正在落地的行业包括IoT、金融、新能源、医疗等
#### PieCloudDB 简介
- **类型**:云原生分布式分析型数据库
- **架构特点**:
- 元数据、用户数据、计算完全分离
- 用户数据支持S3/HDFS/Posix存储
- 架构:Share Nothing on share storage
- 外围产品支持丰富
-未来将支持单机和HTAP(融合事务与分析处理)
- **Postgres生态**:
- 软件交付版本:社区版、企业版、云上云(CoC)版
- 最新版本:v2.11
#### 多计算引擎设计
- **计算引擎组成**:
- Postgres执行器
- 向量化执行引擎
- 向量数据库
- 单机和分布式计算
- Spark(客户依赖,跑批任务)
- 机器学习等
- **设计理念**:
- 抽象化和灵活性贯穿设计
- 主要抽象接口包括文件协议、文件格式、计算功能、元数据存储等
- Apache Arrow作为内存中间桥梁
- 按需增加新的计算引擎,支持多种计算形态
#### 长期目标与外延
- **长期目标**:
- 赋能其他产品
- 支持更多计算形态(如云上计算调度)
- **计算外延**:
- 仓湖一体:支持开源表格式(如Iceberg on HDFS/S3)
- 联邦查询
- 云上计算调度
- **性能创新点**:
- 结合JANM(大数据计算系统云存储底座)有大量性能创新潜力
#### 总结
本文档围绕云时代多数据计算引擎的设计与实现,重点介绍了拓数派公司及其产品PieCloudDB的核心技术特点与应用场景。其设计理念强调抽象化、灵活性和多计算引擎的支持,布局广泛的生态系统和高效的计算能力,同时展望了未来的发展方向与技术创新。 |
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
3 页请下载阅读 -
文档评分