实时报表 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Hadoop 迁移到阿里云MaxCompute 技术方案

及开源生态由一系列的开源组件共同组成，很多用户基于 Hadoop 及开源生态组件构建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构的逻辑组件关系如下图所示：这些逻辑组件包括：  数据源：数据源包括关系型数据库、日志文件、实时消息等。  数据存储：面向海量数据存储的分布式文件存储服务，支持结构化数据和非结构数据数据存储，我们也常称之为数据湖。如用。如 Hive、 MapReduce、Spark 等。 Alibaba Cloud MaxCompute 解决方案 8  实时消息采集：用于实时数据采集，可扩展、高吞吐、可靠的消息服务。如 Kafka。  流处理：对实时数据进行低延迟流式计算的服务。如 Flink、Spark Streaming、Storm 等。  机器学习：满足机器学习工作负载的服务。如当前流行的据以结构化的方式进行存储，以便分析工具或分析应用能够获取数据。如利用 MPP 数据仓库、Spark SQL 等支持 BI 工具访问，利用 Hbase 实现低延迟的在线服务等  分析与报表：对数据进行分析和展现以获取洞察。如 BI 工具、jupyter 等。  数据作业编排：将多个数据处理动作（数据移动、处理转换等）编排成为工作流并周期性地执行以实现数据处理工作的自动化。如

0 码力 | 59 页 | 4.33 MB | 1 年前
3

共 1 条前往

页

Hadoop 迁移阿里 MaxCompute 技术方案

分类

语言

格式

Hadoop 迁移到阿里云MaxCompute 技术方案