云原生虚拟数仓 PieCloudDB ETL 方案设计与实现
便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 CDC 场景 • 数据需要包含操作字段 (OP),即 INSERT/UPDATE/DELETE • 数据需要包含逻辑主键 (LPK),当逻辑主键不存在时做插入,已 存在时做更新或者删除 • 数据需要包含顺序键 (OK),以决定操作生效的顺序 • 数据可以重复,但不可以有事务逻辑错误 • Merge/Upsert 模式,步骤1 将数据解析完成,导入与目标表类型相同的临时表中 SELECT r0 码力 | 29 页 | 5.24 MB | 1 年前3PieCloudDB Database V2.1 版本说明
的支持:PieCloudDB 支持查询优化器 Orca。Orca 是一款开源的、基 于 Cascades 模型的模块化查询优化器,帮助用户对 SQL 进行优化,生成高效的查询计 划。 • 支持超大数据量字段 • 支持快速 ETL/ELT: Kafka 流数据导入支持,copy 性能大幅提升。 • 外部数据源的查询(实验性功能): PieCloudDB 支持 foreign-data 支持数据导入时自由切入/切出页面,无需用户在导入界面停留等待 o 支持 text 文本格式 o 统一报错信息 • 数据库信息:增加表的大小(size) 信息展示 • 计算集群:外部接入支持更多类型,用户可以更加灵活的配置端口范围0 码力 | 3 页 | 257.15 KB | 1 年前3PieCloudDB Database 社区版集群安装部署手册 V2.1
用“CREATE SCHEMA” 语句创建一个 “公司人事数据” 的 schema。 3. 然后使用 “CREATE TABLE” 语句创建一张 “员工信息表” ,定义好每个字段的名称和类型。 4. 然后在菜单栏点击 ,点击右上角的 ,选择集群“cluster1”、数据 库 “公司数据库”和目标表 “公司人事数据/员工信息表”0 码力 | 42 页 | 1.58 MB | 1 年前3PieCloudDB:基于PostgreSQL的eMPP云原生数据库
rights reserved. OpenPie Confidential 计算 • MPP • 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 @2022 OpenPie. All rights reserved. OpenPie Confidential 实时加解密 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建新一代云原生存储引擎 • 用户成本 (存储成本) • 自动选取适应类型的编码 • 压缩 • 减少对象存储的访问开销 • OLAP 性能 • 多级缓存 • 行列混合存储 • 定义内外存的数据格式 • 文件内统计信息 • 智能Analyze @2022 OpenPie0 码力 | 45 页 | 1.32 MB | 1 年前3云原生数据库PieCloudDB 性能优化之路
扫描/连接之外的优化阶段 • 主要处理除扫描和连接之外的其他操作,例如聚集、排序等 • 后处理阶段 • 主要把前面的处理结果转换成执行器期望的形式 • 简化表达式 • 简化连接树 • 把 IN,EXISTS 等类型的子查询转换为半连接 • 提升子查询 • 把外连接转换为内连接 • 把外连接转换为反连接 • 分发约束条件 • 构建等价类 • 收集外连接信息 • 消除无用连接 • … SELECT …0 码力 | 26 页 | 711.44 KB | 1 年前3大模型时代下向量数据库的设计与应用
• 支持二进制索引 • 支持多级索引如HNSW+IVF等 • CPU多核并行/GPU加速 PieCloudVector • Faiss与postgres内核对接 - 基础接口 • 增加向量列类型用于基本的加载与卸载 • 实现向量距离运算符 • 实现向量近似搜索的索引,调用faiss PieCloudVector • Faiss与postgres内核对接 - 数据可见性 • fai0 码力 | 28 页 | 1.69 MB | 1 年前3云原生虚拟数仓 PieCloudDB 的架构和关键模块实现
OpenPie Confidential • 在 AP 场景下,像使用 postgres 一样使用 PieCloudDB • 只为已经发生的计算和存储付费 • 按需启动的关闭多个不同大小的集群,以适应不同类型的任务 • 取得性能和开发效率的高度平衡 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 云原生架构 @20220 码力 | 43 页 | 1.14 MB | 1 年前3PieCloudDB 的云原生之路
IvorySQL开源数据库社区 02 分布式引擎 IvorySQL开源数据库社区 计算 • MPP o 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 IvorySQL开源数据库社区 计算 • 多租户隔离 • 容量和带宽独立于计算伸缩 • 可按使用量付费0 码力 | 47 页 | 1.80 MB | 1 年前3PieCloudDB云原生数仓虚拟化之路
rights reserved. OpenPie Confidential 计算 • MPP • 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 @2022 OpenPie. All rights reserved. OpenPie Confidential0 码力 | 44 页 | 1.64 MB | 1 年前3
共 9 条
- 1