pdf文档 尚硅谷大数据技术之Hadoop(入门)

1.70 MB 35 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档系统介绍了Hadoop的概述、发展历史、优势、组成以及核心架构。Hadoop是一个分布式系统基础架构,主要用于解决海量数据的存储和分析问题。其核心组件包括HDFS(分布式文件系统)、MapReduce(并行计算模型)、YARN(资源管理框架)和Common(辅助工具)。Hadoop的优势在于高可靠性、高扩展性、高效性和高容错性。文档还详细阐述了Hadoop的发展历史,从Google的GFS、MapReduce和BigTable启发,并经历了多个版本的演变。YARN和MapReduce在Hadoop 2.x中分离,分别负责资源调度和计算逻辑。
AI总结
### Hadoop入门总结 #### 一、Hadoop概述 - **定义**:Hadoop是Apache基金会开发的分布式系统框架,广义上指其生态圈。 - **功能**:解决海量数据的存储与计算问题,分为广义(生态圈)和狭义(HDFS+MapReduce)。 #### 二、Hadoop发展历史 - **起源**:由Doug Cutting创立,源于模仿Google的技术(GFS、MapReduce、BigTable)。 - **版本演变**: - **2006年**:Hadoop正式作为Apache项目诞生。 - **2011年**: Hortonworks成立,推出HDP。 - **2018年**:Hortonworks被Cloudera收购,推出CDP。 #### 三、Hadoop优势 - **高可靠性**:多副本机制,防止数据丢失。 - **高扩展性**:支持数千节点扩展,适用于大规模数据处理。 - **高效性**:并行计算,提升处理速度。 - **高容错性**:自动任务失败重分配。 #### 四、Hadoop组成 - **核心组件**: - **HDFS**:分布式文件系统。 - **MapReduce**:并行计算模型。 - **YARN**:资源管理框架。 - **版本区别**: - **1.x**:MapReduce兼顾计算与资源调度。 - **2.x**:引入YARN,解耦资源调度与运算。 - **3.x**:组成未变,性能优化。 #### 五、Hadoop架构概述 - **HDFS架构**: - **NameNode**:存储元数据。 - **DataNode**:存储数据块。 - **Secondary NameNode**:元数据备份。 - **YARN架构**: - **ResourceManager (RM)**:集群资源管理。 - **ApplicationMaster (AM)**:任务运行管理。 - **NodeManager (NM)**:单节点资源管理。 - **Container**:资源封装,执行任务。 #### 六、MapReduce架构 - **Map阶段**:并行处理数据,生成键值对。 - **Reduce阶段**:汇总Map结果,生成最终输出。 #### 七、实操部分 - **环境配置**:IP配置、一致性检查。 - **集群管理**: - **启动/停止**:使用脚本或命令行工具。 - **常用脚本**:实现集群启停、任务提交。 - **任务执行**:WordCount示例,输出结果存储在HDFS。 - **日志查看**:历史服务器地址,查看任务状态和运行日志。 通过以上总结,全面概括了Hadoop的核心概念、架构及其应用,使读者对Hadoop有清晰的理解和实际操作的基础。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 28 页请下载阅读 -
文档评分
请文明评论,理性发言.