尚硅谷大数据技术之Hadoop(生产调优手册)
小文件弊端 HDFS 上每个文件都要在 NameNode 上创建对应的元数据,这个元数据的大小约为 150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用 NameNode 的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。 小文件过多,在进行 MR 计算时,会生成过多切片,需要启动过多的 MapTask。每个 MapTask 处理的数据量小,导致0 码力 | 41 页 | 2.32 MB | 1 年前3Hadoop 概述
Hive,也将 HDFS 用于数据存储(见图 1-7)。 获取实时数据 实时插入 填充 Hive 表 行数据 HADOOP 填充器 Hadoop 生态系统 HDFS 中的 数据文件 图 1-7 Hadoop 大数据解决方案 14 Oracle 公司为其旗舰数据库引擎和 Hadoop 开发了一款软件。 这是一个实用工具的集合,协助集成 Oracle0 码力 | 17 页 | 583.90 KB | 1 年前3尚硅谷大数据技术之Hadoop(入门)
是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库, 它是一个适合于非结构化数据存储的数据库。 8)Hive:Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张 数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运 行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce0 码力 | 35 页 | 1.70 MB | 1 年前3
共 3 条
- 1