Hadoop 迁移到阿里云MaxCompute 技术方案
2 阿里云大数据与开源生态对比 2.1 Hadoop 及开源生态与阿里云大数据生态对比 2.1.1 主流大数据体系架构 Hadoop 及开源生态由一系列的开源组件共同组成,很多用户基于 Hadoop 及开源生态组件构 建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括: 供 Spark 计算框架,支持用户以熟悉的开发使用方式提 交运行 Spark 作业。 * 支持原生多版本 Spark 作业:Spark1.x/Spark2.x 作业 都可运行; * 开源系统的使用体验:Spark-submit 提交方式(暂不 支持 spark-shell/spark-sql 的交互式),提供原生的 Spark WebUI 供用户查看; * 通过访问 OSS、OTS、database 进行批量数据上传下载。 流式接入 Datahub MaxCompute 配套的流式数据接入服务,粗略地类似 kafka,能够通过简单配置归档 topic 数据到 MaxCompute 表 用户接口 CLT/SDK 统一的命令行工具和 JAVA/PYTHON SDK 开发&诊断 Dataworks/Studio/Logview 配套的数据同步、作业开发、工作流编排调度、作业运维0 码力 | 59 页 | 4.33 MB | 1 年前3Curve核心组件之mds – 网易数帆
topology用于管理和组织机器,利用底层机器的放置、网络的规划以面向业务提供如下功能和非功能需求。 1. 故障域的隔离:比如副本的放置分布在不同机器,不同机架,或是不同的交换机下面。 2. 隔离和共享:不同用户的数据可以实现固定物理资源的隔离和共享。 • pool: 用于实现对机器资源进行物理隔离,server不能跨 Pool交互。运维上,建议以pool为单元进行物理资源的扩 容。 • zone: 如上所示LogicalPool与pool为多对一的关系,一个物理pool可以存放各种类型的file。当然由于curve支持 多个pool,可以选择一个logicalPool独享一个pool。 通过结合curve的用户系统,LogicalPool可以通过配置限定特定user使用的方式,实现多个租户数据物理 隔离(待开发)。TOPOLOGY Topology的实际例子,右侧是topo配置文件: 集群有一个物理 MDS leader Chunk server 1、发起请求 2、查询元数据 5、返回结果 5、返回结果 user 3、查询leader节点 4、向leader cs发起请求 1. 用户发起请求(fd, offset, length) ; 2. Client 向 mds 查询请求的元数据, 并缓存到本地,请求转换为对 chunk 的请求 (CopysetId ,chunkId0 码力 | 23 页 | 1.74 MB | 5 月前3
共 2 条
- 1