Hadoop 迁移到阿里云MaxCompute 技术方案的数据湖/数据仓库业务负载 ......................................................................... 15 3.2 不同的网络环境及部署形态迁移 .............................................................................................. 2.1.1 主流大数据体系架构 Hadoop 及开源生态由一系列的开源组件共同组成,很多用户基于 Hadoop 及开源生态组件构 建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括:  数据源:数据源包括关系型数据库、日志文件、实时消息等。  数据存储:面向海量数据存储的分布式文件存储服务,支持  机器学习:满足机器学习工作负载的服务。如当前流行的 Spark MLib/ML、Tensorflow 等。  分析型数据存储:对数据进行处理加工后,面向应用场景,将数据以结构化的方式进行存储, 以便分析工具或分析应用能够获取数据。如利用 MPP 数据仓库、Spark SQL 等支持 BI 工具 访问,利用 Hbase 实现低延迟的在线服务等  分析与报表:对数据进行分析和展现以获取洞察。如0 码力 | 59 页 | 4.33 MB | 1 年前3
 Curve核心组件之mds – 网易数帆pool: 用于实现对机器资源进行物理隔离,server不能跨 Pool交互。运维上,建议以pool为单元进行物理资源的扩 容。 • zone: 故障隔离的基本单元,一般来说属于不同zone的机 器至少是部署在不同的机架,一个server必须归属于一个 zone。 • server: 用于抽象描述一台物理服务器,chunkserver必须 归属一个于server。 • Chunkserver: 用于抽象描述物理服务器上的一块物理磁盘0 码力 | 23 页 | 1.74 MB | 6 月前3
共 2 条
- 1
 













