尚硅谷大数据技术之Hadoop(入门)
1.70 MB
35 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档系统介绍了Hadoop的概述、发展历史、优势、组成以及核心架构。Hadoop是一个分布式系统基础架构,主要用于解决海量数据的存储和分析问题。其核心组件包括HDFS(分布式文件系统)、MapReduce(并行计算模型)、YARN(资源管理框架)和Common(辅助工具)。Hadoop的优势在于高可靠性、高扩展性、高效性和高容错性。文档还详细阐述了Hadoop的发展历史,从Google的GFS、MapReduce和BigTable启发,并经历了多个版本的演变。YARN和MapReduce在Hadoop 2.x中分离,分别负责资源调度和计算逻辑。 | ||
AI总结 | ||
### Hadoop入门总结
#### 一、Hadoop概述
- **定义**:Hadoop是Apache基金会开发的分布式系统框架,广义上指其生态圈。
- **功能**:解决海量数据的存储与计算问题,分为广义(生态圈)和狭义(HDFS+MapReduce)。
#### 二、Hadoop发展历史
- **起源**:由Doug Cutting创立,源于模仿Google的技术(GFS、MapReduce、BigTable)。
- **版本演变**:
- **2006年**:Hadoop正式作为Apache项目诞生。
- **2011年**: Hortonworks成立,推出HDP。
- **2018年**:Hortonworks被Cloudera收购,推出CDP。
#### 三、Hadoop优势
- **高可靠性**:多副本机制,防止数据丢失。
- **高扩展性**:支持数千节点扩展,适用于大规模数据处理。
- **高效性**:并行计算,提升处理速度。
- **高容错性**:自动任务失败重分配。
#### 四、Hadoop组成
- **核心组件**:
- **HDFS**:分布式文件系统。
- **MapReduce**:并行计算模型。
- **YARN**:资源管理框架。
- **版本区别**:
- **1.x**:MapReduce兼顾计算与资源调度。
- **2.x**:引入YARN,解耦资源调度与运算。
- **3.x**:组成未变,性能优化。
#### 五、Hadoop架构概述
- **HDFS架构**:
- **NameNode**:存储元数据。
- **DataNode**:存储数据块。
- **Secondary NameNode**:元数据备份。
- **YARN架构**:
- **ResourceManager (RM)**:集群资源管理。
- **ApplicationMaster (AM)**:任务运行管理。
- **NodeManager (NM)**:单节点资源管理。
- **Container**:资源封装,执行任务。
#### 六、MapReduce架构
- **Map阶段**:并行处理数据,生成键值对。
- **Reduce阶段**:汇总Map结果,生成最终输出。
#### 七、实操部分
- **环境配置**:IP配置、一致性检查。
- **集群管理**:
- **启动/停止**:使用脚本或命令行工具。
- **常用脚本**:实现集群启停、任务提交。
- **任务执行**:WordCount示例,输出结果存储在HDFS。
- **日志查看**:历史服务器地址,查看任务状态和运行日志。
通过以上总结,全面概括了Hadoop的核心概念、架构及其应用,使读者对Hadoop有清晰的理解和实际操作的基础。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
28 页请下载阅读 -
文档评分