Hadoop 概述第 1 章 Hadoop 概述 3 例如,让我们考虑类似 Google、Bing 或者 Twitter 这样的大型 数据存储。所有这些数据存储都会随着诸如查询和庞大用户基数等 活动事件而呈现出指数增长。Hadoop 的组件可以帮助你处理这些大 型数据存储。 类似 Google 这样的商业公司可使用 Hadoop 来操作、管理其数 据存储并从中产生出有意义的结果。通常用于商业分析的传统工具 YARN 分布式数据处理 从属 NAMENODE 活动 NAMENODE 备用 NAMENODE 调度器 共享编辑日志 或者 JOURNAL NODE 从节点 容器 容器 容器 资源管理器 数据节点 数据节点 数据节点 节点管理器 节点管理器 节点管理器 图 1-1 MapReduce 的功能使得它成为最常用的批处理工具之一。该处 中获取最新的集中式配置。这也使得你只需要 通过 ZooKeeper 的一个客户端改变集中式配置,便能改变分布式系 统的状态。 名称服务是将某个名称映射为与该名称相关信息的服务。它类 似于活动目录,作为一项名称服务,活动目录的作用是将某人的用 户 ID(用户名)映射为环境中的特定访问或权限。同样,DNS 服务作 为名称服务,将域名映射为 IP 地址。通过在分布式系统中使用 ZooKeeper,你0 码力 | 17 页 | 583.90 KB | 1 年前3
大数据集成与Hadoop - IBM应用程序纵向扩展:衡量软件在一个对称多处理器 (SMP) 系统中的多个处理器间实现线性数据可扩展性的 有效程度。 • 应用程序横向扩展:确定软件在非共享架构的多个 SMP 节点间实现线性数据可扩展性的有效程度。 图1. 海量数据可扩展性是一项大数据集成的强制要求。在大数据时代,企业必须支持MPP群集系统才能实现扩展。 支持海量数据可扩展性的需求并非只与Hadoop基础架构的出 现有关。多年来,领先的数据仓库供应商(如IBM和Teradata) 大规模并 行软件平台,有些企业采用此做法已有近20年。 久而久之,这些供应商陆续集中关注4个常见的软件架构特征, 以便为实现海量数据可扩展性提供支持,如图2所示。 IBM软件 5 图2. 海量数据可扩展性的4大特征。 大部分商业数据集成软件平台在设计时从未考虑过支持海量数 据可扩展性,这意味着在设计之初,并未考虑利用非共享大规模 并行架构。它们依靠共享的内存多线程,而非软件数据流。 某些数据集成操作在RDBMS引擎内外的运行效率较高。同样, 并非所有数据集成操作均适用于Hadoop环境。设计精妙的架 构必须足够灵活,可以充分利用系统中每个环境的优势(参见 图3)。 在ETL网格中运行 在数据库中运行 在Hadoop中运行 图3. 大数据集成需要一种可利用任何环境优势的平衡方法。 优点 • 利用ETL MPP引擎 • 利用商业硬件和存储 • 利用网格整合 SMP 服务器 • 执行无法推送到RDBMS的复0 码力 | 16 页 | 1.23 MB | 1 年前3
通过Oracle 并行处理集成 Hadoop 数据库实 例上挂载 HDFS(如果是 RAC 数据库,则在其所有实例上挂载 HDFS),即可使用外部表基 础架构轻松访问 HDFS 文件。 图 1. 用数据库内置的 MapReduce 通过外部表进行访问 在图 1 中,我们利用 Oracle Database 11g 实现本文所述的数据库内的 mapreduce。通常情况 下,Oracle Database 11g 图 2. 利用表函数进行并行处理 由于表函数可以并行运行,Hadoop 流作业也可以不同程度地并行运行,并且后者不受 Oracle 查询协调器的控制,这种情况下,队列能提供负载平衡。 4 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 利用表函数的示例 下面我们将以一个实际示例展示图 2 的 的架构。请注意,我们的示例仅展示了使用表函数访问 Hadoop 中存储的数据的一个模板实现。显然可能存在其他的甚至可能更好的实现。 下图是图 2 中原始示意图在技术上更准确、更具体的展示,解释了我们要在何处、如何使用 后文给出的部分实际代码: 图 3. 启动 Mapper 作业并检索数据 第 1 步是确定由谁作为查询协调器。对此我们采用一种将具有相同键值的记录写入表的简单0 码力 | 21 页 | 1.03 MB | 1 年前3
Hadoop 迁移到阿里云MaxCompute 技术方案Spark 交互式分析 Impala Presto Hawk GreenPlum 等交互式分析 MaxCompute Lightning,提供只读的交互式查 询服务 图计算 Spark GraphX MaxCompute Spark GraphX MaxCompute Graph 流式采集 Kafka Datahub,流式数据投递至 MaxCompute0 码力 | 59 页 | 4.33 MB | 1 年前3
尚硅谷大数据技术之Hadoop(入门)MapReduce 应用,十分适合数据仓库的统计分析。 9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、 名字服务、分布式同步、组服务等。 1.7 推荐系统框架图 推荐系统项目框架 数据库(结构化数据) 文件日志(半结构化数据) 视频、ppt等(非结构化数据) Sqoop数据传递 Flume日志收集 Kafka消息队列 HDFS文件存储 HBase非关系型数据库0 码力 | 35 页 | 1.70 MB | 1 年前3
共 5 条
- 1













