Spark 简介以及与 Hadoop 的对比MapReduce 所具有的 优点;但不同于 MapReduce 的是 Job 中间输出和结果可以保存在内存中,从而不再需要读 写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 map reduce 的算 法。 1.2 Spark 核心概念 1.2.1 弹性分布数据集(RDD) RDD 是 Spark 的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式 列化的。RDD 可以 cache 到内存中,每次对 RDD 数据集的操作之后的结果,都可以存放到 内存中,下一个操作可以直接从内存中输入,省去了 MapReduce 大量的磁盘 IO 操作。这对 于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。 1.2.2 RDD 的转换与操作 对于 RDD 可以有两种计算方式:转换(返回值还是一个 RDD)与操作(返回值不是一个 RDD) 个 RDD 的 lineage(血统)来重新计算生成丢失的分区数据。 2 Spark 与 Hadoop 对比 2.1 快速 Spark 的中间数据放到内存中,对于迭代运算效率更高。Spark 更适合于迭代运算比较多 的 ML 和 DM 运算。因为在 Spark 里面,有 RDD 的抽象概念。 2.2 灵活 1. Spark 提供的数据集操作类型有很多种,不像 Hadoop0 码力 | 3 页 | 172.14 KB | 1 年前3
尚硅谷大数据技术之Hadoop(入门)访问过计算机的公钥(public key) id_rsa 生成的私钥 id_rsa.pub 生成的公钥 authorized_keys 存放授权过的无密登录服务器公钥 3.2.4 集群配置 1)集群部署规划 注意: ➢ NameNode 和 SecondaryNameNode 不要安装在同一台服务器 ➢ ResourceManager 也很消耗内存,不要和 NameNode、SecondaryNameNode0 码力 | 35 页 | 1.70 MB | 1 年前3
尚硅谷大数据技术之Hadoop(生产调优手册)hadoop dfsadmin -report 5.2.2 测试环境准备 1)测试环境描述 服务器规模:5 台 集群配置:副本数为 2,创建好带有存储类型的目录(提前创建) 集群规划: 节点 存储类型分配 hadoop102 RAM_DISK,SSD hadoop103 SSD,DISK hadoop104 DISK,RAM_DISK hadoop1050 码力 | 41 页 | 2.32 MB | 1 年前3
共 3 条
- 1













