属性转换 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

大数据集成与Hadoop - IBM

大数据集成对于Hadoop措施的重要性 Hadoop的迅速崛起推动企业在如何抽取、管理、转换、存储和分析大数据方面实现了范式转变。无论是要更深入的分析，还是希望获得更出色的洞察、新产品、新服务以及更高的服务水平，都可以通过这项技术一一实现，从而大幅降低成本并创造新的收入。依靠收集、移动、转换、清除、集成、治理、探索以及分析多种不同来源的大量不同类型的数据来实现大数据与Hadoop项程和行为准则。 “在很大程度上，80%的大数据项目开发精力用于数据集成，只有20%的精力投入到数据分析中。” —Intel Corporation，“使用 Apache Hadoop 抽取、转换和加载大数据”1 有效的大数据集成解决方案可实现简便性、高速度、可扩展性、功能和治理，从Hadoop沼泽中生成可使用的数据。没有有效的集成，势必形成“垃圾进垃圾出”的情况－这不是出色的在这些新兴的Hadoop市场阶段，请仔细分辨听到的所有说明Hadoop卓尔不群的言论。充分使用Hadoop的神话与现实之间存在巨大的反差，这在大数据集成方面表现尤为突出。很多业界传言称，任何不可扩展的抽取、转换和加载 (ETL) 工具搭配Hadoop后都会得到高性能、高度可扩展的数据集成平台。事实上，MapReduce的设计宗旨并非是对海量数据进行高性能处理，而是为了实现细粒度的容错。这种差异可能会

0 码力 | 16 页 | 1.23 MB | 1 年前
3
Hadoop 概述

Apache 将他们的集成称作生态系统。字典中将生态系统定义为：生物与它们所处环境的非生物组成部分(如空气、水、土壤和矿产)作为一个系统进行交互的共同体。基于技术的生态系统也有类似的属性。它是产品平台的结合，由平台拥有者所开发的核心组件所定义，辅之以自动化(机器脱离人类自主运转)企业在其周边(围绕着一个空间)所开发的应用程序。以 Apache 的多种可用产品和大量供应商提供的将据、服务器日志、客户交易与交互、视频以及来自现场设备的传感器数据。 Hortonworks 或者 Cloudera 数据平台，以及 Informatica，使得企业能够优化 ETL(抽取、转换、加载)工作流程，以便在 Hadoop 中长期存储和处理大规模数据。 Hadoop 与企业工具的集成使得组织能够将内部和外部的所有数据用于获得完整的分析能力，并以此推动现代数据驱动业务的成功。运行一个处理流程，它基于 XQuery 语言中表达的转换，将其转化成一系列 MapReduce 作业，这些作业在 Apache Hadoop 群集上并行执行。输入数据可以位于文件系统上，通过 Hadoop 分布式文件系统(HDFS)访问，或者存储在 Oracle 的 NoSQL 数据库中。Oracle XQuery for Hadoop 能够将转换结果写入 Hadoop 文件、Oracle NoSQL

0 码力 | 17 页 | 583.90 KB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

Hadoop Distributed File System，简称 HDFS，是一个分布式文件系统。 HDFS架构概述 1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。 2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。 3）Secondary 它是一个适合于非结构化数据存储的数据库。 8）Hive：Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。 NodeManager NodeManager 2）配置文件说明 Hadoop 配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。（1）默认配置文件：要获取的默认文件文件存放在 Hadoop 的 jar 包中的位置 [core-default.xml] hadoop-common-3.1.3.jar/core-default

0 码力 | 35 页 | 1.70 MB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

............................................................................ 18 4.2.3 分析任务兼容性分析及转换................................................................................................ 19 .................. 42 Alibaba Cloud MaxCompute 解决方案 4 6.5.1 Hive SQL -> MaxCompute SQL 自动转换 ..................................................................... 42 6.5.2 UDF、MR 迁移 ...... 访问，利用 Hbase 实现低延迟的在线服务等  分析与报表：对数据进行分析和展现以获取洞察。如 BI 工具、jupyter 等。  数据作业编排：将多个数据处理动作（数据移动、处理转换等）编排成为工作流并周期性地执行以实现数据处理工作的自动化。如 Apache Oozie、Sqoop 等。 2.1.2 开源大数据组件架构 Alibaba Cloud MaxCompute

0 码力 | 59 页 | 4.33 MB | 1 年前
3
Spark 简介以及与 Hadoop 的对比

交互式数据挖掘来说，效率提升比较大。 1.2.2 RDD 的转换与操作对于 RDD 可以有两种计算方式：转换（返回值还是一个 RDD）与操作（返回值不是一个 RDD） 1. 转换(Transformations) (如：map, filter, groupBy, join 等)，Transformations 操作是 Lazy 的，也就是说从一个 RDD 转换生成另一个 RDD 的操作不是马上执行，Spark 数据集通过所谓的血统关系(Lineage) 记住了它是如何从其它 RDD 中演变过来的。相比其它系统的细颗粒度的内存数据更新级别的备份或者 LOG 机制，RDD 的 Lineage 记录的是粗颗粒度的特定数据转换（Transformation）操作（filter, map, join etc.)行为。当这个 RDD 的部分分区数据丢失时，它可以通过 Lineage 获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型，限制了 checkpoint data，一个是 logging the updates。用户可以控制采用哪种方式来实现容错，默认是 logging the updates 方式，通过记录跟踪所有生成 RDD 的转换（transformations）也就是记录每个 RDD 的 lineage（血统）来重新计算生成丢失的分区数据。 2 Spark 与 Hadoop 对比 2.1 快速 Spark

0 码力 | 3 页 | 172.14 KB | 1 年前
3
银河麒麟服务器操作系统V4 Hadoop 软件适配手册

大型集群（上千节点）快速地并行得处理大量数据的软件框架，以可靠，容错的方式部署在商用机器上。MapReduce 这个术语来自两个基本的数据转换操作：map 过程和 reduce 过程。  map： map 操作会将集合中的元素从一种形式转化成另一种形式，在这种情况下，输入的键值对会被转换成零到多个键值对输出。其中输入和输出的键必须完全不同，而输入和输出的值则可能完全不同。  reduce：某个键的所有键值对都会被分发到同一个 reduce 操作中。确切的说，这个键和这个键所对应的所有值都会被传递给同一个 Reducer。reduce 过程的目的是将值的集合转换成一个值（例如求和或者求平均），或者转换成另一个集合。这个 Reducer 最终会产生一个键值对。需要说明的是，如果 job 不需要 reduce 过程的话，那么 reduce 过程也是可以不用的。  task：

0 码力 | 8 页 | 313.35 KB | 1 年前
3

共 6 条前往

页

大数集成 Hadoop IBM 概述硅谷技术入门迁移阿里 MaxCompute 方案 Spark 简介以及对比银河麒麟服务务器服务器操作系统操作系统 V4 软件适配手册

分类

语言

格式

大数据集成与Hadoop - IBM

Hadoop 概述

尚硅谷大数据技术之Hadoop（入门）

Hadoop 迁移到阿里云MaxCompute 技术方案

Spark 简介以及与 Hadoop 的对比

银河麒麟服务器操作系统V4 Hadoop 软件适配手册