Flink如何实时分析Iceberg数据湖的CDC数据Flink如何实时分析Iceberg数据湖的CDC数据 阿里巴巴 李劲松/胡争 FLINK FORWARD #ASIA 2020 #1 #2 #3 #4 常见的CDC 为何选择 Flink 如何实时写 未来规划 分析方案 + Iceberg 入读取 FLINK FORWARD #ASIA 2020 ## #1 常见的CDC分析方案 ## 离线 HBase 集群分析 CDC 数据 ↓ ## MySQL 3、通过RegionServer定位HFile,Server的优化和缓存完全用不上。 4、数据格式绑定HFile,不方便拓展到Parquet、Avro、Orc等。 FLINK FORWARD #ASIA 2020 ## Apache Kudu 维护 CDC 数据集 ## MySQL ## 方案评估 优点 1、支持实时更新数据,时效性佳。 2、列存加速,适合OLAP分析。 ## 缺点 1、独立的Kudu集群,比较小众。维护成本高。 等割裂。数据独立,且存储成本不如 S3 / OSS。 3、Kudu的批量扫描不如parquet。 4、不支持增量拉取。 FLINK FORWARD #ASIA 2020 ## MySQL → GQOOP → HVE ## 方案评估 优点 1、流程能工作 2、Hive存量数据不受增量数据影响。 ## 缺点 1、数据不是实时写入; 2、每次数据导致都要 MERGE 存量数据。T+10 码力 | 36 页 | 781.69 KB | 2 年前3
Apache Kyuubi 1.4.1 Documentationexisting ecosystem and introduce new features quickly, such as cloud-native support and Data Lake/Lake House support. Kyuubi’s vision is to build on top of Apache Spark and Data Lake technologies to unify the0 码力 | 233 页 | 4.62 MB | 2 年前3
Pivotal HVR meetup 20190816## HVR ## 个人介绍 • 中国科学技术大学计算机科学学士 • 上海交通大学MBA • 20年+IT从业经验,专注于数据库技术领域 • 自2003年始从事数据库实时复制技术的解决方案 - 2013年至2015年在SAP 担任大数据和BI解决方案资深技术顾问 • 2015年加入HVR中国公司担任技术总监 • 微信号: gu9060   ## HVR 连续数据集成技术 - 常见的使用场景 - Cloud Real-Time Analytics Data Lake Data Warehouse Geographical Distribution jpg) ## 基于数据库事务日志的变化数据捕获 非侵入式技术对生产没有影响 基于日志捕获技术的实时性非常高 支持从过去的某一指定时间开始捕获 条件过滤 支持触发器捕获技术作为补充  ## 异构平台间数据校验域修复 避免人为错误0 码力 | 31 页 | 2.19 MB | 2 年前3
阿里云 AnalyticDB for PostgreSQL
- 打造更简单易用的Cloud SQL Data Warehouse2010年初加入支付宝,负责Oracle RAC和Greenplum数据仓库 ● 有幸参与了Oracle RAC到 Greenplum再到Hadoop以及最终到ODPS的架构演进工作。 ● 2012年起,转至阿里巴巴大数据团队,负责Hbase/OTS业务支撑,期间多次负责阿里大数据双11架构和稳定性工作 ● 2018年,在阿里云数据库负责OLAP产品管理团队。 ### 1. Greenplum发展史 ## 为什么要提供Greenplum云服务 ☐ IaaS、PaaS、SaaS皆云化-大势所趋 ☐ 阿里云能够提供一站式的分析解决方案 ☐ PostgreSQL的生态发展迅猛 ☐ 大数据发展势头放缓 ☐ 数据库更简单易用 托管 弹性 ## 高可用 安全 监控 ### 1. Greenplum发展史 @Alibaba ### 2. AnalyticDB for PostgreSQL产品介绍 PostgreSQL 未来演进 ## AnalyticDB for PostgreSQL 在线MPP数据仓库服务 简单易用、海量扩展、兼容部分Oracle 语法生态、既支持在线交互分析,也支持离线数据处理。AnalyticDB for PostgreSQL(云Greenplum)低成本,快速构筑在线企业数据仓库。  到 TiDB 的全量数据迁移,及增量数据同步。可协助用户在不停机的情况下轻松将业务从 MySQL 切换至 TiDB。 ## 自建 TiDB 迁移到 TiDB 服务 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 服务。用户在源 TiDB 开启 Pump, Drainer 可进行数据增量同步。UDTS 与源端 Pump, Drainer 一起可协助用户在不停机的情况下轻松将业务从自建 TiDB 切换至 TiDB 服务。 ## 为 TiDB 服务建立 MySQL 从库 UDTS 产品支持 TiDB 全量数据迁移至 MySQL 数据库。用户在 TiDB 服务上开启 Binlog 可将数据增量同步至下游 MySQL。UDTS 与 TiDB Binlog Binlog 服务一起可协助用户轻松建立 MySQL 从库。 ## 为 TiDB 服务建立 TiDB 从库 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 数据库。用户在源 TiDB 服务上开启 Binlog 可将数据增量同步至下游 TiDB。UDTS 与 TiDB Binlog 服务一起可协助用户轻松建立 TiDB 从 库。0 码力 | 2 页 | 42.01 KB | 1 年前3
【05 计算平台 蓉荣】Flink 批处理及其应⽤Flink 批处理及其应用 ## What is Apache Flink $ ^{*} $ Apache Flink 是一个分布式大数据处理引擎 $ ^{*} $ 可对有限数据流和无限数据流进行有状态计算 * 可部署在各种集群环境 * 对各种大小的数据规模进行快速计算 ## 为什么Flink能做批处理  ## Flink Batch应用 – 数据湖  ## 存储 ## Flink Batch应用 – 数据湖 计算 存储 • Kafka • Kafka • Datahub • Datahub • SLS • SLS • MQ Queue Queue • MQ • OSS • OSS Blink SQL+UDF0 码力 | 12 页 | 1.44 MB | 2 年前3
SQLite 数据转 Mysql# SQLite 数据转 Mysql #### I nsMsgServer 3.7.6 ## 当前 InHgServer 环境 以下过程在 win7 sp1 x64 系统下完成, 如果您的系统不能运行以下相关程序, 请将服务器的 db/ 目录下的 IMBase.dat 文件复制到 win7 sp1 x64 系统下完成  ## 利用 InHgServer 生成 Mysql 数据库 确保 mysql 数据库中没有 IM 相关库  调整使用 Mysql 作为数据库,并点击启动  确认启动后数据库正确建立InsMsgServer Start(2017-12-17 05:59:25) General Data Network 0 码力 | 17 页 | 1.40 MB | 2 年前3
Hadoop 概述Hive 的角色 ● Hadoop 与其他系统的集成 ● 数据集成与 Hadoop Hadoop 是一种用于管理大数据的基本工具。这种工具满足了企业在大型数据库(在 Hadoop 中亦称为数据湖)管理方面日益增长的需求。当涉及数据时,企业中最大的需求便是可扩展能力。科技和商业促使各种组织收集越来越多的数据,而这也增加了高效管理这些数据的需求。本章探讨 Hadoop Stack,以及所有可与 Hadoop 的核心,然而它并不会威胁到你的预算。如果要分析一组数据,你可以使用 MapReduce 中包含的编程逻辑,它提供了在 Hadoop 群集上横跨多台服务器的可扩展性。为实现资源管理,可考虑将 Hadoop YARN 加入到软件栈中,它是面向大数据应用程序的分布式操作系统。 ZooKeeper 是另一个 Hadoop Stack 组件,它能通过共享层次名称空间的数据寄存器(称为 znode),使得分布式进程相互协调工作。每个 并不被认为是一种关系型数据库管理系统 (RDBMS),但其仍能与 Oracle、MySQL 和 SQL Server 等系统一起工作。这些系统都已经开发了用于对接 Hadoop 框架的连接组件。我们将在本章介绍这些组件中的一部分,并且展示它们如何与 Hadoop 进行交互。 ### 1.1 商业分析与大数据 商业分析通过统计和业务分析对数据进行研究。Hadoop 允许你在其数据存储中进行业务分析。0 码力 | 17 页 | 583.90 KB | 2 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书The quick brown fox jumps over the lazy dog. ## 目录 行业背景 3 数据量的爆发式增长 3 数据库的未来在云上 3 传统数仓的痛点 4 云时代的数据处理要求 5 PieCloudDB,云原生虚拟数仓 6 PieCloudDB 产品概述 7 PieCloudDB 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信息技术的发展,互联网应用的加速普及,人类进入了数字经济时代。进入二十一世纪以后,随着移动互联网技术、物联网技术、5G等技术的发展,全球数据圈(Global Datasphere)呈指数级递增,IDC预测全球数据圈将于2025年增长值175ZB,而中国的数据圈有望于2025年爆炸式增长为世界第一 $ ^{①} $ 。数据被称为数字经 的进步,大数据将推动智能化与数字化时代的发展。 ## I DC:全球数据圈预测 ## 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面对数据计算(Data Computing)的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字化转型面临巨大挑战,急需一款数据库产品,帮助其最大化利用数据资产,降本增效,进行更智能高效的数据计算。0 码力 | 17 页 | 2.02 MB | 1 年前3
Hadoop 迁移到阿里云MaxCompute 技术方案目录 1 概要 ..... 6 2 阿里云大数据与开源生态对比 ..... 7 2.1 Hadoop 及开源生态与阿里云大数据生态对比 ..... 7 2.1.1 主流大数据体系架构 ..... 7 2.1.2 开源大数据组件架构 ..... 8 2.1.3 阿里云大数据组件架构 ..... 9 2.1.4 阿里云大数据与 Hadoop 生态的产品映射 ..... 9 的逻辑架构 ..... 11 2.2.2 MaxCompute 产品特性 ..... 11 3 MaxCompute 迁移场景分析 ..... 15 3.1 迁移基于 Hadoop 的数据湖/数据仓库业务负载 ..... 15 3.2 不同的网络环境及部署形态迁移 ..... 17 4 Hadoop 到 MaxCompute 迁移工具介绍 ..... 17 4.1 MMA (MaxCompute 工具覆盖的场景: ..... 17 4.2 MMA 功能介绍 ..... 18 4.2.1 迁移评估分析 ..... 18 4.2.2 数据迁移自动化 ..... 18 4.2.3 分析任务兼容性分析及转换 ..... 19 4.2.4 数据集成及工作流作业迁移.....19 5 迁移整体方案及流程.....19 5.1 阶段 1:调研评估&迁移方案....0 码力 | 59 页 | 4.33 MB | 2 年前3共 1000 条- 1
- 2
- 3
- 4
- 5
- 6
- 100













