云原生虚拟数仓 PieCloudDB ETL 方案设计与实现ETL方案设计与实现 邱培峰 拓数派 技术专家 云原生虚拟数仓PieCloudDB 大连理工大学软件工程本科 pgsql@qiupf.dev 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发 PieCloudDB 分布式架构简介 ETL 简述 PieCloudDB ETL方案设计 Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 03 CDC模式 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源0 码力 | 29 页 | 5.24 MB | 1 年前3
PieCloudDB Database 产品白皮书 协议,支持标准数据库接 口 (0DBC、JDBC等) 。 对5QL的全面支持和多种过程语言 (Procedure Language) 的支持使得 PieCloudDB 可以无锋集成业内常见的提取/ 转换/加载 (ETL) 和 Bl (商业智能) 工具。企业只需安排少量的集成工作,就可以使用现有的使用标准 SQL 结构和接 口的分析工具让应用在 PieCloudDB -上 从而避免了企业受制于供应商,帮助企业在控制业务风险的同时推动创 、 计算节点以及平台工具等完善的监控指标体系,同时支持日志收集和展示,方便用户更好地进行智能化运维。 PieCloudDB 管控平台提供数据洞察、元数据浏览、用户管理、权限管理、SQL 查询历史、ETL 管理等功能。 Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 。 。 湖仓一体化分析 pieCloudDB 支持统一的资源管控,通 * 完善的数据生态 PieCloudDB 兼容 PostgreSQL/Greenplum 生态组件,兼容大部分现有的 PostgreSQL/Greenplum 客户端,商务智能 {BI) 和 ETL组件。并且,PieCloudDB 正在加速构建更加完善的数据生态体系,通过创建生态工具、建立合作伙伴生 态网络、打造活跃的技术和用户社区等举措,为用户带来更便捷的使用体验。 PiecloudDB 产品核心技术0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书协议,支持标准数据库接 口(ODBC、JDBC 等)。 对SQL的全面支持和多种过程语言(Procedure Language)的支持使得 PieCloudDB 可以无缝集成业内常见的提取/ 转换/加载(ETL)和 BI(商业智能)工具。企业只需安排少量的集成工作,就可以使用现有的使用标准 SQL 结构和接 口的分析工具让应用在 PieCloudDB 上运行,从而避免了企业受制于供应商,帮助企业在控制业务风险的同时推动创 计算节点以及平台工具等完善的监控指标体系,同时支持日志收集和展示,方便用户更好地进行智能化运维。 PieCloudDB 管控平台提供数据洞察、 元数据浏览、用户管理、权限管理、SQL 查询历史、ETL 管理等功能。 9 1. 聚集下推 在执行聚集函数的过程中,查询优化器会把聚集操作下推到连接操作之前去执行,可以极大地减少连 接操作需要处理的数据量,使得查询性能显著提升。在 理 和证书管理。 PieCloudDB 兼容 PostgreSQL/Greenplum 生态组件,兼容大部分现有的 PostgreSQL/Greenplum 客户端,商务智能 (BI)和 ETL 组件。并且,PieCloudDB 正在加速构建更加完善的数据生态体系,通过创建生态工具、建立合作伙伴生 态网络、打造活跃的技术和用户社区等举措,为用户带来更便捷的使用体验。 多集群数据共享0 码力 | 17 页 | 2.02 MB | 1 年前3
πDataCS赋能工业软件创新与实践OpenPie Confidential PieCloudDB--虚拟数仓引擎 Mundo Catalog 计算节点 JANM Table Format 管控节点 安全审计 API接⼝ ETL功能 数据洞察 运维管控 用户权限 NAS⽂件存储 HDFS分布式⽂件系统 S3对象存储 其他Data Lake Bare-Metal IaaS资源 执⾏器 执⾏器 执⾏器 协调器 协调器 向量化执⾏器(SIMD)和JIT Ø HTAP,弹性扩缩容 Ø eMPP专利,弹性⼤规模并⾏计算 Ø 分布式优化器 Ø 存算分离架构 可视化管控: Ø 监控告警 Ø 自定义和动态服务启停 Ø 备份恢复 Ø ETL和数据导出 Ø 数据洞察 Ø 细粒度权限管控,与LDAP⽆缝集成 Ø Rest API @2024 OpenPie. All rights reserved. OpenPie Confidential ⽹络资源 云原⽣资源 中间件 数据库 ⾼性能存储 离线数据 主流组件(Kafka、Flink、Spark、ES) 实时数据 数据 存储 全量数据同步 πDataCS 增量数据同步 可视化ETL 结构化数据处理 非结构化数据处理 数据标准 数据权限体系 数据质量 数据资产目录 元数据统⼀管理 数据安全 离线计算 数据⾎缘 数据标准 实时计算 作业调度 数据交换 机器学习 数据API服务0 码力 | 36 页 | 4.25 MB | 1 年前3
云原生数据库 PieCloudDB : Unbreakable 安全特性剖析分区加密 技术挑战(2) • 和数据库存储结合 • 不影响数据库内核(执行器,优化器) • 不修改/添加元数据表格式 • 业务拟合 • 不影响原有用户的查询\业务 • 不影响外围组件(ETL) PART 03 透明加密的实现 密钥管理 • 主密钥由用户提供 • 保存于用户信任域中 • 无需加解密主密钥 • 多级密钥 • 单密钥加密数据为数据页 • 轮换上级密钥无需重新加解密数据 模块化实现 • 优化器、执行器不感知 • 模块完美支持自研存储 • 可插拔加密算法库 • 支持不同硬件加密算法 • 支持国密算法 • 不影响用户业务 • 原有业务无需变化 • 不影响ETL数据导入导出 透明加密组件架构 用户查询 优化器 执行器 存储接口 数据 透明加密组件架构 用户请求 优化器 执行器 存储接口 透明加密组件 数据 函数接口 密钥管理 模块 加密模块0 码力 | 34 页 | 599.00 KB | 1 年前3
PieCloudDB Database V2.1 版本说明Orca。Orca 是一款开源的、基 于 Cascades 模型的模块化查询优化器,帮助用户对 SQL 进行优化,生成高效的查询计 划。 • 支持超大数据量字段 • 支持快速 ETL/ELT: Kafka 流数据导入支持,copy 性能大幅提升。 • 外部数据源的查询(实验性功能): PieCloudDB 支持 foreign-data wrapper 模块,使用户可以访问包括但不限于0 码力 | 3 页 | 257.15 KB | 1 年前3
PieCloudDB Database 云原生平台用户手册社区版V2.1���������� � ����� ������������������������ � ������ ������������� SQL ��� � ������ �� ETL ���������������������� � ������ ������������ � ���� �����������������纯�������������������������0 码力 | 69 页 | 4.35 MB | 1 年前3
大模型时代下向量数据库的设计与应用or产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者0 码力 | 28 页 | 1.69 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现各种外表数据源联邦查询组件天然⽀持(或者需少量修改) • 各种Postgres/Greenplum组件或者功能天然⽀持,如In- database AI组件Madlib, json, text等 • 实时ETL/ELT性能对⽐PieCloudDB 1.0有巨⼤提升 • 流处理:原⽣⽀持kafka数据导⼊和查询, 在PieCloudDB侧导⼊ 实现exactly once语义 智能化云原⽣平台 (数据服务平台)0 码力 | 31 页 | 1.43 MB | 1 年前3
共 9 条
- 1













