Hadoop 迁移到阿里云MaxCompute 技术方案这些逻辑组件包括: 数据源:数据源包括关系型数据库、日志文件、实时消息等。 数据存储:面向海量数据存储的分布式文件存储服务,支持 结构化数据和非结构数据数据存 储,我们也常称之为数据湖。如 HDFS、对象存储服务等。 批处理:由于大数据场景必须处理大规模的数据集,批处理往往需要从数据存储中读取大量 数据进 行长 时间 处理 分析 ,并将 处理 后的 数据 写 入 新的 数据 对象 关服务的迁移至 阿里云大数据产品服务有更好的理解。 组件分类 Hadoop 开源组件 阿里云产品/产品组件 数据存储 HDFS 文件系统 对象存储 MaxCompute 存储(仅开放表数据存储) OSS 对象存储 EMR HDFS 批处理 Hadoop MapReduce Hive Spark MaxCompute 批处理(MaxCompute 存储格式 支持外表,将存储在 OSS 对象存储、OTS 表格存储的数 据映射为二维表 支持 Partition、Bucket 的分区、分桶存储 更底层不是 HDFS,是阿里自研的盘古文件系统,但可借 助 HDFS 理解对应的表之下文件的体系结构、任务并发 机制 使用时,存储与计算解耦,不需要仅仅为了存储扩大不必 要的计算资源 SQL MaxCompute SQL TPC-DS0 码力 | 59 页 | 4.33 MB | 1 年前3
共 1 条
- 1













