懒集合 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

map 操作会将集合中的元素从一种形式转化成另一种形式，在这种情况下，输入的键值对会被转换成零到多个键值对输出。其中输入和输出的键必须完全不同，而输入和输出的值则可能完全不同。  reduce：某个键的所有键值对都会被分发到同一个 reduce 操作中。确切的说，这个键和这个键所对应的所有值都会被传递给同一个 Reducer。reduce 过程的目的是将值的集合转换成一个值（例如求和或者求平均），或者转换成另过程的目的是将值的集合转换成一个值（例如求和或者求平均），或者转换成另一个集合。这个 Reducer 最终会产生一个键值对。需要说明的是，如果 job 不需要 reduce 过程的话，那么 reduce 过程也是可以不用的。  task： Hadoop 提供了一套基础设计来处理大多数困难的工作以保证任务可以成功执行，比如 Hadoop 决定如果将提交的 job 分解为多个独立的 map 和 reduce 任务

0 码力 | 8 页 | 313.35 KB | 1 年前
3
Spark 简介以及与 Hadoop 的对比

核心概念 1.2.1 弹性分布数据集（RDD） RDD 是 Spark 的最基本抽象,是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD 是 Spark 最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的 RDD 实现。RDD 必须是可序列化的。RDD 可以 cache 到内存中，每次对 RDD 数据集的操作之后的结果，都可以存放到

0 码力 | 3 页 | 172.14 KB | 1 年前
3
Hadoop 概述

要角色。软件栈始于 Hadoop Common 中所包含的基础组件。Hadoop 1 第章 Hadoop 大数据解决方案 2 Common 是常见工具和库的集合，用于支持其他 Hadoop 模块。和其他软件栈一样，这些支持文件是一款成功实现的必要条件。而众所周知的文件系统，Hadoop 分布式文件系统，或者说 HDFS，则是 Hadoop 的核心 HDFS 中的数据文件图 1-7 Hadoop 大数据解决方案 14 Oracle 公司为其旗舰数据库引擎和 Hadoop 开发了一款软件。这是一个实用工具的集合，协助集成 Oracle 的服务与 Hadoop Stack。大数据连接器套件是一个工具集，提供深入分析和发现信息的能力，并能快速集成基础设施中存储的所有数据。所有工具均是可扩展的，如果你已经是或者未来将会成为

0 码力 | 17 页 | 583.90 KB | 1 年前
3
大数据集成与Hadoop - IBM

（包括Hadoop环境，但不仅限于此）创建完全受治理的数据生命周期。以下是创建全面数据生命周期的建议步骤： • 查找：利用条款、标记和集合来查找接受治理和监管的数据源 • 监管：为相关资产添加标记、条款和自定义属性 • 收集：通过收集来捕获资产，并开展具体的分析或治理工作 • 协作：共享其他内容管理和治理集合 • 治理：创建并引用信息治理策略和规则；应用数据质量、屏蔽、归档和清除操作 • 卸载：单击HDFS来复制数据并执行分析，以便强化仓库

0 码力 | 16 页 | 1.23 MB | 1 年前
3
MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

▪ ImageDatastore 6 tall arrays ▪ tall array – 一种新的数据类型，专门用于处理大数据. – 用于处理数据规模超过单个机器或群集的内存承载能力的数据集合 ▪ 使用方式等同于MATLAB 数组(array) – 支持数据类型包括数值型、字符串、时间类型、表等… – 支持众多基本的数学函数、统计函数、索引函数等. – 支持机器学习算法包括分类、聚类和回归

0 码力 | 17 页 | 1.64 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

-y epel-release （3）注意：如果 Linux 安装的是最小系统版，还需要安装如下工具；如果安装的是 Linux 桌面标准版，不需要执行如下操作 ➢ net-tool：工具包集合，包含 ifconfig 等命令 [root@hadoop100 ~]# yum install -y net-tools ➢ vim：编辑器 [root@hadoop100 ~]#

0 码力 | 35 页 | 1.70 MB | 1 年前
3

共 6 条前往

页

银河麒麟服务务器服务器操作系统操作系统 V4 Hadoop 软件适配手册 Spark 简介以及对比概述大数集成 IBM MATLAB 实现数据处理价值硅谷技术入门

分类

语言

格式

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

Spark 简介以及与 Hadoop 的对比

Hadoop 概述

大数据集成与Hadoop - IBM

MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

尚硅谷大数据技术之Hadoop（入门）