容量 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

尚硅谷大数据技术之Hadoop（生产调优手册）

更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网 4.2 服役新服务器 1）需求随着公司业务的增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。 2）环境准备（1）在 hadoop100 主机上再克隆一台 hadoop105 主机（2）修改 IP 地址和主机名称 DISK：（普通磁盘，在HDFS中，如果没有主动声明数据目录存储类型默认都是DISK） ARCHIVE：（没有特指哪种存储介质，主要的指的是计算能力比较弱而存储密度比较高的存储介质，用来解决数据量的容量扩增的问题，一般用于归档） 1）关于存储类型 2）关于存储策略策略ID 策略名称副本分布 15 Lazy_Persist RAM_DISK:1，DISK:n-1 12 All_SSD SSD:n 每个文件均按块存储，每个块的元数据存储在 NameNode 的内存中，因此 HDFS 存储小文件会非常低效。因为大量的小文件会耗尽 NameNode 中的大部分内存。但注意，存储小文件所需要的磁盘容量和数据块的大小无关。例如，一个 1MB 的文件设置为 128MB 的块存储，实际使用的是 1MB 的磁盘空间，而不是 128MB。 2）解决存储小文件办法之一 HDFS 存档文件或 HAR

0 码力 | 41 页 | 2.32 MB | 1 年前
3
大数据集成与Hadoop - IBM

大数据集成需要一种可利用任何环境优势的平衡方法。优点 • 利用ETL MPP引擎 • 利用商业硬件和存储 • 利用网格整合 SMP 服务器 • 执行无法推送到RDBMS的复杂转换（数据清理） • 释放RDBMS服务器上的容量 • 处理异构数据源（未存储到数据库中） • ETL服务器可以较快地执行某些流程缺点 • ETL服务器在执行某些流程时速度较慢（数据已经存储到关系表中） • 可能需要额外的硬件（低成可能需要额外的硬件（低成本硬件）优点 • 利用数据库MPP引擎 • 将数据移动降至最低限度 • 利用数据库执行加入/聚合 • 清除数据后效果最佳 • 释放ETL服务器上的计算周期 • 利用RDBMS服务器的多余容量 • 数据库可以较快地执行某些流程缺点 • 硬件和存储费用昂贵 • 查询SLA出现降级 • 并非所有ETL逻辑均可推送到 RDBMS（使用ETL工具或手动编码） • 无法利用商业硬件通常需要手动编码 • 复杂转换方面的限制 • 数据清理限制 • 数据库在执行某些流程时速度较慢优点 • 利用MapReduce MPP引擎 • 利用商业硬件和存储 • 释放数据库服务器上的容量 • 支持处理非结构化数据 • 利用Hadoop功能保留数据（如更新和编写索引） • 实现低成本历史归档数据缺点 • 可能需要复杂的编程工作 • MapReduce通常比并行数据库或可扩展ETL工具速度

0 码力 | 16 页 | 1.23 MB | 1 年前
3
Hadoop 概述

何分配资源的资源调度器。节点管理器(每个群集中有多个)是此基础设施的从节点。当开始运行时，它向资源管理器声明自己。此类节点有能力向群集提供资源，它的资源容量即内存和其他资源的数量。在运行时，资源调度器将决定如何使用该容量。Hadoop 2 中的 YARN 框架允许工作负载在各种处理框架之间动态共享群集资源，这些框架包括 MapReduce、Impala 和 Spark。YARN

0 码力 | 17 页 | 583.90 KB | 1 年前
3
大数据时代的Intel之Hadoop

英特尔®中国于计算创新中心 • Intel Hadoop研发团队 • 行业应用英特尔®中国云计算创新中心数据中心: • 11 个机柜，其中网络机柜1个，服务器机柜10个 • 电气容量：6 kW/机柜 • 配电：一路220V AC 市电 + 一路 240V DC 直流 • 况源采用况冶水系统，末端采用行间送风 • 封闭热走廊 Intel Hadoop研发团队

0 码力 | 36 页 | 2.50 MB | 1 年前
3

共 4 条前往

页

硅谷大数技术 Hadoop 生产调优手册集成 IBM 概述时代 Intel

分类

语言

格式

尚硅谷大数据技术之Hadoop（生产调优手册）

大数据集成与Hadoop - IBM

Hadoop 概述

大数据时代的Intel之Hadoop