Hadoop 迁移到阿里云MaxCompute 技术方案 数据存储:面向海量数据存储的分布式文件存储服务,支持 结构化数据和非结构数据数据存 储,我们也常称之为数据湖。如 HDFS、对象存储服务等。 批处理:由于大数据场景必须处理大规模的数据集,批处理往往需要从数据存储中读取大量 数据进 行长 时间 处理 分析 ,并将 处理 后的 数据 写 入 新的 数据 对象 供后 续使 用。如 Hive、 MapReduce、Spark 等。 MaxCompute 提供了云原生、多租户的服务架构,在底层大规模计算、存储资源之上预先构建 好了 MaxCompute 计算服务、服务接口,提供了配套的安全管控手段和开发工具管理工具,产 品开箱即用。 功能 MaxCompute 产品组件 特性介绍 数据存储 MaxCompute 表 (基于盘古分布式存储) MaxCompute 支持大规模计算存储,适用于 TB 以上规 模的存储及计算需求,最大可达 模的存储及计算需求,最大可达 EB 级别。同一个 MaxCompute 项目支持企业从创业团队发展到独角兽的 数据规模需求; 数据分布式存储,多副本冗余,数据存储对外仅开放表的 操作接口,不提供文件系统访问接口 自研数据存储结构,表数据列式存储,默认高度压缩,后 D k n e P y l w s o u ) ( ( f I w s A n t S B M / ) g p L K0 码力 | 59 页 | 4.33 MB | 1 年前3
Curve核心组件之mds – 网易数帆• 元数据节点 MDS 管理元数据信息 收集集群状态信息,自动调度 • 数据节点 Chunkserver 数据存储 副本一致性 • 客户端 Client 对元数据增删改查 对数据增删改查 • 快照克隆服务器MDS各个组件 MDS是中心节点,负责元数据管理、集群状态收集与调度。MDS包含以下几个部分: • Topology: 管理集群的 topo 元数据信息。 • Nameserver: 通过结合curve的用户系统,LogicalPool可以通过配置限定特定user使用的方式,实现多个租户数据物理 隔离(待开发)。TOPOLOGY Topology的实际例子,右侧是topo配置文件: 集群有一个物理pool,由3个zone组成,每个zone有1台server。 在物理pool上,还创建了一个逻辑pool,逻辑pool使用3个zone,采用 3副本,有100个copyset。 cluster • 文件查找:查找一个具体的文件 • 目录重命名:对一个目录/文件进行重命名 当前元数据信息编码之后存储在 etcd 中。COPYSET Curve系统中数据分片的最小单位称之为Chunk。在大规模的存储容量下,会产生大量的Chunk,如此众多的 Chunk,会对元数据的存储、管理产生一定压力。因此引入CopySet的概念,CopySet类似于ceph的pg。CopySet 可以理解为一组0 码力 | 23 页 | 1.74 MB | 6 月前3
共 2 条
- 1













