活动图 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Hadoop 概述

第 1 章 Hadoop 概述 3 例如，让我们考虑类似 Google、Bing 或者 Twitter 这样的大型数据存储。所有这些数据存储都会随着诸如查询和庞大用户基数等活动事件而呈现出指数增长。Hadoop 的组件可以帮助你处理这些大型数据存储。类似 Google 这样的商业公司可使用 Hadoop 来操作、管理其数据存储并从中产生出有意义的结果。通常用于商业分析的传统工具 YARN 分布式数据处理从属 NAMENODE 活动 NAMENODE 备用 NAMENODE 调度器共享编辑日志或者 JOURNAL NODE 从节点容器容器容器资源管理器数据节点数据节点数据节点节点管理器节点管理器节点管理器图 1-1 MapReduce 的功能使得它成为最常用的批处理工具之一。该处中获取最新的集中式配置。这也使得你只需要通过 ZooKeeper 的一个客户端改变集中式配置，便能改变分布式系统的状态。名称服务是将某个名称映射为与该名称相关信息的服务。它类似于活动目录，作为一项名称服务，活动目录的作用是将某人的用户 ID(用户名)映射为环境中的特定访问或权限。同样，DNS 服务作为名称服务，将域名映射为 IP 地址。通过在分布式系统中使用 ZooKeeper，你

0 码力 | 17 页 | 583.90 KB | 1 年前
3
大数据集成与Hadoop - IBM

应用程序纵向扩展：衡量软件在一个对称多处理器 (SMP) 系统中的多个处理器间实现线性数据可扩展性的有效程度。 • 应用程序横向扩展：确定软件在非共享架构的多个 SMP 节点间实现线性数据可扩展性的有效程度。图1. 海量数据可扩展性是一项大数据集成的强制要求。在大数据时代，企业必须支持MPP群集系统才能实现扩展。支持海量数据可扩展性的需求并非只与Hadoop基础架构的出现有关。多年来，领先的数据仓库供应商（如IBM和Teradata）大规模并行软件平台，有些企业采用此做法已有近20年。久而久之，这些供应商陆续集中关注4个常见的软件架构特征，以便为实现海量数据可扩展性提供支持，如图2所示。 IBM软件 5 图2. 海量数据可扩展性的4大特征。大部分商业数据集成软件平台在设计时从未考虑过支持海量数据可扩展性，这意味着在设计之初，并未考虑利用非共享大规模并行架构。它们依靠共享的内存多线程，而非软件数据流。某些数据集成操作在RDBMS引擎内外的运行效率较高。同样，并非所有数据集成操作均适用于Hadoop环境。设计精妙的架构必须足够灵活，可以充分利用系统中每个环境的优势（参见图3）。在ETL网格中运行在数据库中运行在Hadoop中运行图3. 大数据集成需要一种可利用任何环境优势的平衡方法。优点 • 利用ETL MPP引擎 • 利用商业硬件和存储 • 利用网格整合 SMP 服务器 • 执行无法推送到RDBMS的复

0 码力 | 16 页 | 1.23 MB | 1 年前
3
通过Oracle 并行处理集成 Hadoop 数据

库实例上挂载 HDFS（如果是 RAC 数据库，则在其所有实例上挂载 HDFS），即可使用外部表基础架构轻松访问 HDFS 文件。图 1. 用数据库内置的 MapReduce 通过外部表进行访问在图 1 中，我们利用 Oracle Database 11g 实现本文所述的数据库内的 mapreduce。通常情况下，Oracle Database 11g 图 2. 利用表函数进行并行处理由于表函数可以并行运行，Hadoop 流作业也可以不同程度地并行运行，并且后者不受 Oracle 查询协调器的控制，这种情况下，队列能提供负载平衡。 4 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据利用表函数的示例下面我们将以一个实际示例展示图 2 的的架构。请注意，我们的示例仅展示了使用表函数访问 Hadoop 中存储的数据的一个模板实现。显然可能存在其他的甚至可能更好的实现。下图是图 2 中原始示意图在技术上更准确、更具体的展示，解释了我们要在何处、如何使用后文给出的部分实际代码：图 3. 启动 Mapper 作业并检索数据第 1 步是确定由谁作为查询协调器。对此我们采用一种将具有相同键值的记录写入表的简单

0 码力 | 21 页 | 1.03 MB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

Spark 交互式分析 Impala Presto Hawk GreenPlum 等交互式分析 MaxCompute Lightning，提供只读的交互式查询服务图计算 Spark GraphX MaxCompute Spark GraphX MaxCompute Graph 流式采集 Kafka Datahub，流式数据投递至 MaxCompute

0 码力 | 59 页 | 4.33 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

MapReduce 应用，十分适合数据仓库的统计分析。 9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。 1.7 推荐系统框架图推荐系统项目框架数据库（结构化数据）文件日志（半结构化数据）视频、ppt等（非结构化数据） Sqoop数据传递 Flume日志收集 Kafka消息队列 HDFS文件存储 HBase非关系型数据库

0 码力 | 35 页 | 1.70 MB | 1 年前
3

共 5 条前往

页

Hadoop 概述大数集成 IBM 通过 Oracle 并行处理并行处理数据迁移阿里 MaxCompute 技术方案硅谷入门

分类

语言

格式

Hadoop 概述

大数据集成与Hadoop - IBM

通过Oracle 并行处理集成 Hadoop 数据

Hadoop 迁移到阿里云MaxCompute 技术方案

尚硅谷大数据技术之Hadoop（入门）