云原生虚拟数仓 PieCloudDB ETL 方案设计与实现
ETL方案设计与实现 邱培峰 拓数派 技术专家 云原生虚拟数仓PieCloudDB 大连理工大学软件工程本科 pgsql@qiupf.dev 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发 PieCloudDB 分布式架构简介 ETL 简述 PieCloudDB ETL方案设计 Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 03 CDC模式 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源0 码力 | 29 页 | 5.24 MB | 1 年前3大数据集成与Hadoop - IBM
分辨听到的所有 说明Hadoop卓尔不群的言论。充分使用Hadoop的神话 与现实之间存在巨大的反差,这在大数据集成方面表现尤为 突出。很多业界传言称,任何不可扩展的抽取、转换和加载 (ETL) 工具搭配Hadoop后都会得到高性能、高度可扩展 的数据集成平台。 事实上,MapReduce的设计宗旨并非是对海量数据进行 高性能处理,而是为了实现细粒度的容错。这种差异可能会 使整体性能和有效性降低一个数量级乃至更多。 一个Hadoop与大数据集成的重要用例是将大型ETL工作负载 从企业数据仓库 (EDW) 卸载下来,以便降低成本并改善查询 服务水平协议 (SLA)。该用例会引发以下问题: • 企业是否应卸载EDW中的所有ETL工作负载? • 是否应将所有大数据集成工作负载都推送到Hadoop? • 在没有并行关系数据库管理系统 (RDBMS) 和Hadoop 的情况下,大数据集成工作负载在ETL网格中发挥怎样 的持续作用? 选择并行RDBMS、Hadoop和可扩展的ETL网格来运行大数据 集成工作负载。但无论选择哪种方法,信息基础架构都必须满足 一个常见的要求:全面支持大规模可扩展处理。 某些数据集成操作在RDBMS引擎内外的运行效率较高。同样, 并非所有数据集成操作均适用于Hadoop环境。设计精妙的架 构必须足够灵活,可以充分利用系统中每个环境的优势(参见 图3)。 在ETL网格中运行 在数据库中运行 在Hadoop中运行0 码力 | 16 页 | 1.23 MB | 1 年前3Greenplum 精粹文集
Batch(不需要交互式),对计算性能不是 很敏感,那 Hadoop 也是不错的选择,因为 Hadoop 不需要你花费 较多的精力来模式化你的数据,节省数据模型设计和数据加载设计 方面的投入。这些系统包括:历史数据系统、ETL 临时数据区、数 据交换平台等等。 切记,千万不要为了大数据而大数据(就好像不要为了创新而创新一 个道理),否则,你项目最后的产出与你的最初设想可能 将差之千里,行业内不乏失败案例。 最后,提一下,GreenplumMPP 某金融客户的测试结果,比 HIVE 高 8 倍左右),因此可以考虑在项 目中同时部署 MPP 数据库和 Hadoop,MPP 用于交互式高性能分析, Hadoop 用于数据 Staging、MPP 的数据备份或一些 ETL batch 的数据 清洗任务,两者相辅相成,在各自最擅长的场景中发挥其特性和优势。 Big Date2.indd 18 16-11-22 下午3:38 Greenplum 精粹文集 19 28 4. ETL 服务器 ETL 服务器是数据的临时存放区,由于 Greenplum 服务器并行加载 的特点,数据可以直接通过网络从 ETL 服务器导入到 Greenplum 计 算节点,所以 ETL 服务器网络和磁盘 IO 的性能直接关系到数据加载 和卸载的性能,官方的测试数据 16 台计算节点 Greenplum 集群, 加载性能可以达到 16TB/ 小时。 ETL 服务器推荐采用的0 码力 | 64 页 | 2.73 MB | 1 年前3RDBMSとNoSQLのメリットを併せ持つクラウドネイティブなNewSQLデータベース 「TiDB」をKubernetesで動かしてみよう!
Syntax (MySQL 互換) Distributed Transactions (分散トランザクション) Cloud Native (クラウドネイティブ志向) Minimize ETL (OLTP と OLAP のサポート) High Availability (高可用性) Open Source Conference 2022 Online/Spring 12 TiDB Syntax (MySQL 互換) Distributed Transactions (分散トランザクション) Cloud Native (クラウドネイティブ志向) Minimize ETL (OLTP と OLAP のサポート) High Availability (高可用性) Open Source Conference 2022 Online/Spring 13 TiDB Syntax (MySQL 互換) Distributed Transactions (分散トランザクション) Cloud Native (クラウドネイティブ志向) Minimize ETL (OLTP と OLAP のサポート) High Availability (高可用性) Open Source Conference 2022 Online/Spring 16 TiDB0 码力 | 71 页 | 6.65 MB | 1 年前3深度揭秘Greenplum开源数据库透明加密
我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb GPDB GPDB的数据安全 用户 • • 不兼容现有查询语句 • 不兼容ETL工具 性能低 • 不支持索引 • 优化器无法使用,需要全表扫描 局限性高 • 多表关联查询需要先全表解密 • 只能加密表数据 pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 Recall pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall GPDB数据透明加密方案设计0 码力 | 48 页 | 10.19 MB | 1 年前3百度智能云 Apache Doris 文档
处于这两个阶段时,导入完成。其中 CANCELLED 为导 入失败,FINISHED 为导入成功。 导入任务的进度描述。分为两种进度:ETL 和 LOAD,对应了导入流程的两个阶段 ETL 和 LOADING。目前 Broker load 由于 只有 LOADING 阶段,所以 ETL 则会永远显示为 LOAD 的进度范围为:0~100%。 如果所有导入表均完成导入,此时 LOAD 的进度为 99% 如果所有导入表均完成导入,此时 Label: label1 State: FINISHED State: FINISHED Progress: ETL:N Progress: ETL:N//AA;; LOAD LOAD::100 100%% Type Type: BROKER : BROKER EtlInfo: 显示分两部分:type 和 msg,如果导入任务成功则显示 。 type的取值意义: 这几个值分别代表导入创建的时间,ETL阶段开始的时间,ETL阶段完成的时间,Loading阶段开始的时间和整个导入任务完 成的时间。 Broker load 导入由于没有 ETL 阶段,所以其 EtlStartTime, EtlFinishTime, LoadStartTime 被设置为同一个值。 导入任务长时间停留在0 码力 | 203 页 | 1.75 MB | 1 年前3VMware Greenplum 6 Documentation
Interconnect Redundancy 309 Network Interface Configuration 309 Switch Configuration 310 About ETL Hosts for Data Loading 311 About VMware Greenplum Performance Monitoring 312 About Management and 2111 Examples 2111 list 2112 set 2112 database 2112 network base-vm 2112 network gp-virtual-etl-bar 2113 network gp-virtual-external 2113 network gp-virtual-internal 2113 vm 2113 vsphere 2114 VMware by Broadcom 291 Greenplum Streaming Server v1.5.3 - The VMware Greenplum Streaming Server is an ETL tool that provides high speed, parallel data transfer from Informatica, Kafka, Apache NiFi and custom0 码力 | 2445 页 | 18.05 MB | 1 年前3VMware Greenplum v6.25 Documentation
Interconnect Redundancy 295 Network Interface Configuration 295 Switch Configuration 296 About ETL Hosts for Data Loading 297 About VMware Greenplum Performance Monitoring 298 About Management and 2068 Examples 2068 list 2069 set 2069 database 2069 network base-vm 2069 network gp-virtual-etl-bar 2070 network gp-virtual-external 2070 network gp-virtual-internal 2070 vm 2071 vsphere 2071 usage information. Greenplum Streaming Server v1.5.3 - The VMware Greenplum Streaming Server is an ETL tool that provides high speed, parallel data transfer from Informatica, Kafka, Apache NiFi and custom0 码力 | 2400 页 | 18.02 MB | 1 年前3VMware Greenplum 6 Documentation
Interconnect Redundancy 277 Network Interface Configuration 277 Switch Configuration 278 About ETL Hosts for Data Loading 279 About VMware Greenplum Performance Monitoring 280 About Management and VMware, Inc 261 Greenplum Streaming Server v1.5.3 - The VMware Greenplum Streaming Server is an ETL tool that provides high speed, parallel data transfer from Informatica, Kafka, Apache NiFi and custom parallel data transfer from a Kafka cluster to a Greenplum Database cluster for batch and streaming ETL operations. It requires Kafka version 0.11 or newer for exactly-once delivery assurance. Refer to0 码力 | 2374 页 | 44.90 MB | 1 年前3VMware Tanzu Greenplum v6.23 Documentation
Interconnect Redundancy 269 Network Interface Configuration 269 Switch Configuration 270 About ETL Hosts for Data Loading 271 About Tanzu Greenplum Performance Monitoring 272 About Management and PXF documentation. Greenplum Streaming Server v1.5.3 - The Tanzu Greenplum Streaming Server is an ETL tool that provides high speed, parallel data transfer from Informatica, Kafka, Apache NiFi and custom parallel data transfer from a Kafka cluster to a Greenplum Database cluster for batch and streaming ETL operations. It requires Kafka version 0.11 or newer for exactly-once delivery assurance. Refer to0 码力 | 2298 页 | 40.94 MB | 1 年前3
共 187 条
- 1
- 2
- 3
- 4
- 5
- 6
- 19