Hadoop 迁移到阿里云MaxCompute 技术方案
建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括: 数据源:数据源包括关系型数据库、日志文件、实时消息等。 数据存储:面向海量数据存储的分布式文件存储服务,支持 结构化数据和非结构数据数据存 储,我们也常称之为数据湖。如 HDFS、对象存储服务等。 批处理:由于大 机器学习 Spark Mlib/ML Tensorflow PAI 机器学习平台 MaxCompute Spark 实时消息采集 Kafka Datahub 日志服务(LogHub 组件) 消息队列 Kafka 流处理 Spark Streaming Flink Storm 实时计算(原流计算) EMR(开源流计算组件) 分析型数据存储 不暴露文件系统,输入输出都是表 通过 MaxCompute 客户端工具、Dataworks 提交作业 交互式分析 MaxCompute Lightning MaxCompute 产品的交互式查询服务,特性如下: 兼容 PostgreSQL:兼容 PostgreSQL 协议的 JDBC/ODBC 接口,所有支持 PostgreSQL 数据库的工 具或应用使用默认驱动都可以轻松地连接到0 码力 | 59 页 | 4.33 MB | 1 年前3Curve核心组件之mds – 网易数帆
client MDS leader Chunk server 1、发起请求 2、查询元数据 5、返回结果 5、返回结果 user 3、查询leader节点 4、向leader cs发起请求 1. 用户发起请求(fd, offset, length) ; 2. Client 向 mds 查询请求的元数据, 并缓存到本地,请求转换为对 chunk 的请求 (CopysetId (CopysetId ,chunkId, offset in chunk, length in chunk); 3. Client 向 chunkserver 查询 chunk 所在的 copyset的leader Chunkserver节点; 4. Client 向 leader 发送读写请求client (IP, port, CopysetId, chunkId, offset in chunk, length 间(默认 30min),chunkserver状态改为unstable状态,打 印一条warning日志。 • Offline :chunk server超过offline的时间没有收到心 跳(默认30min), chunkserver状态改为offline, 打印一条error日志。调度模块感知到offline状态, 触发chunk server的recover修复。 心跳正常 心跳正常0 码力 | 23 页 | 1.74 MB | 5 月前3
共 2 条
- 1