尚硅谷大数据技术之Hadoop(生产调优手册)更多 Java –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网 4.2 服役新服务器 1)需求 随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据 的需求,需要在原有集群基础上动态添加新的数据节点。 2)环境准备 (1)在 hadoop100 主机上再克隆一台 hadoop105 主机 (2)修改 IP 地址和主机名称 DISK:(普通磁盘,在HDFS中,如果没有主动声明数据目录存储类型默认都是DISK) ARCHIVE:(没有特指哪种存储介质,主要的指的是计算能力比较弱而存储密度比较高的存储介质,用来解决数据量的 容量扩增的问题,一般用于归档) 1)关于存储类型 2)关于存储策略 策略ID 策略名称 副本分布 15 Lazy_Persist RAM_DISK:1,DISK:n-1 12 All_SSD SSD:n 每个文件均按块存储,每个块的元数据存储在 NameNode 的内存中,因此 HDFS 存储 小文件会非常低效。因为大量的小文件会耗尽 NameNode 中的大部分内存。但注意,存储小 文件所需要的磁盘容量和数据块的大小无关。例如,一个 1MB 的文件设置为 128MB 的块 存储,实际使用的是 1MB 的磁盘空间,而不是 128MB。 2)解决存储小文件办法之一 HDFS 存档文件或 HAR0 码力 | 41 页 | 2.32 MB | 1 年前3
大数据集成与Hadoop - IBM大数据集成需要一种可利用任何环境优势的平衡方法。 优点 • 利用ETL MPP引擎 • 利用商业硬件和存储 • 利用网格整合 SMP 服务器 • 执行无法推送到RDBMS的复 杂转换(数据清理) • 释放RDBMS服务器上的容量 • 处理异构数据源(未存储到 数据库中) • ETL服务器可以较快地执行某 些流程 缺点 • ETL服务器在执行某些流程时 速度较慢(数据已经存储到 关系表中) • 可能需要额外的硬件(低成 可能需要额外的硬件(低成 本硬件) 优点 • 利用数据库MPP引擎 • 将数据移动降至最低限度 • 利用数据库执行加入/聚合 • 清除数据后效果最佳 • 释放ETL服务器上的计算周期 • 利用RDBMS服务器的多余容量 • 数据库可以较快地执行某些 流程 缺点 • 硬件和存储费用昂贵 • 查询SLA出现降级 • 并非所有ETL逻辑均可推送到 RDBMS(使用ETL工具或手 动编码) • 无法利用商业硬件 通常需要手动编码 • 复杂转换方面的限制 • 数据清理限制 • 数据库在执行某些流程时速 度较慢 优点 • 利用MapReduce MPP引擎 • 利用商业硬件和存储 • 释放数据库服务器上的容量 • 支持处理非结构化数据 • 利用Hadoop功能保留数据 (如更新和编写索引) • 实现低成本历史归档数据 缺点 • 可能需要复杂的编程工作 • MapReduce通常比并行数 据库或可扩展ETL工具速度0 码力 | 16 页 | 1.23 MB | 1 年前3
Hadoop 概述何分 配资源的资源调度器。节点管理器(每个群集中有多个)是此基础设 施的从节点。当开始运行时,它向资源管理器声明自己。此类节点 有能力向群集提供资源,它的资源容量即内存和其他资源的数量。 在运行时,资源调度器将决定如何使用该容量。Hadoop 2 中的 YARN 框架允许工作负载在各种处理框架之间动态共享群集资源,这些框 架包括 MapReduce、Impala 和 Spark。YARN0 码力 | 17 页 | 583.90 KB | 1 年前3
大数据时代的Intel之Hadoop英特尔®中国于计算创新中心 • Intel Hadoop研发团队 • 行业应用 英特尔®中国云计算创新中心 数据中心: • 11 个机柜,其中网络机柜1个,服务 器机柜10个 • 电气容量:6 kW/机柜 • 配电:一路220V AC 市电 + 一路 240V DC 直流 • 况源采用况冶水系统,末端采用行间 送风 • 封闭热走廊 Intel Hadoop研发团队0 码力 | 36 页 | 2.50 MB | 1 年前3
共 4 条
- 1













