云原生虚拟数仓 PieCloudDB ETL 方案设计与实现
每一组计算节点组成一个集群,多集群共享 元数据和存储系统 计算节点高度并行 05 兼容 PostgreSQL 生态 PieCloudDB eMPP 分布式架构 导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 • 最好的 pdbconduct • 独立运行,通常在 PieCloudDB 控制节点上 • 按需启动数据源(插件)导出 • 发送 SQL 语句到 PieCloudDB 控制节点 • 收集执行结果,记录进度和错误信息 • INSERT/MERGE 模式 • INSERT 模式,支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式,步骤1 Ø PieCloudDB Foreign (LPK),当逻辑主键不存在时做插入,已 存在时做更新或者删除 • 数据需要包含顺序键 (OK),以决定操作生效的顺序 • 数据可以重复,但不可以有事务逻辑错误 • Merge/Upsert 模式,步骤1 将数据解析完成,导入与目标表类型相同的临时表中 SELECT r.a, r.b+r.c, func(r.d) … FROM (SELECT meta, raw FROM foreign_table LATERAL JOIN0 码力 | 29 页 | 5.24 MB | 1 年前3云原生数据库 PieCloudDB : Unbreakable 安全特性剖析
• 优化器、执行器不感知 • 模块完美支持自研存储 • 可插拔加密算法库 • 支持不同硬件加密算法 • 支持国密算法 • 不影响用户业务 • 原有业务无需变化 • 不影响ETL数据导入导出 透明加密组件架构 用户查询 优化器 执行器 存储接口 数据 透明加密组件架构 用户请求 优化器 执行器 存储接口 透明加密组件 数据 函数接口 密钥管理 模块 加密模块 加密算法库0 码力 | 34 页 | 599.00 KB | 1 年前3PieCloudDB Database V2.1 版本说明
Cascades 模型的模块化查询优化器,帮助用户对 SQL 进行优化,生成高效的查询计 划。 • 支持超大数据量字段 • 支持快速 ETL/ELT: Kafka 流数据导入支持,copy 性能大幅提升。 • 外部数据源的查询(实验性功能): PieCloudDB 支持 foreign-data wrapper 模块,使用户可以访问包括但不限于 HDFS、MySQL 果直接复制 o 支持执行请求时自由切入/切出页面,不影响用户进行其他操作 o 支持快捷键执行请求 o 支持 sql 文本查找/替换 • 数据导入优化: o 支持数据导入时自由切入/切出页面,无需用户在导入界面停留等待 o 支持 text 文本格式 o 统一报错信息 • 数据库信息:增加表的大小(size) 信息展示 • 计算集群:外0 码力 | 3 页 | 257.15 KB | 1 年前3πDataCS赋能工业软件创新与实践
Ø HTAP,弹性扩缩容 Ø eMPP专利,弹性⼤规模并⾏计算 Ø 分布式优化器 Ø 存算分离架构 可视化管控: Ø 监控告警 Ø 自定义和动态服务启停 Ø 备份恢复 Ø ETL和数据导出 Ø 数据洞察 Ø 细粒度权限管控,与LDAP⽆缝集成 Ø Rest API @2024 OpenPie. All rights reserved. OpenPie Confidential0 码力 | 36 页 | 4.25 MB | 1 年前3PieCloudDB Database 社区版集群安装部署手册 V2.1
“公司人事数据/员工信息表” ,点击 ,选择“员工信息 表.csv”,点击 可以预览表数据,点击左下角的 ,根据文件格式填写分隔符、是否 包含表头和空值字符 串形式等补充信息,点击 即可完成上传和导入。 按照如上步骤,可以完成剩下五张表的创建和数据加载,并创建如下的 schema 结构。 4.5 查询计算 1. 基于以上创建的数据表,就可以进行一些查询计算来解决实际问题了。例如,想查看员工信息表的0 码力 | 42 页 | 1.58 MB | 1 年前3
共 5 条
- 1