ETL方案设计 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

大数据集成与Hadoop - IBM

分辨听到的所有说明Hadoop卓尔不群的言论。充分使用Hadoop的神话与现实之间存在巨大的反差，这在大数据集成方面表现尤为突出。很多业界传言称，任何不可扩展的抽取、转换和加载 (ETL) 工具搭配Hadoop后都会得到高性能、高度可扩展的数据集成平台。事实上，MapReduce的设计宗旨并非是对海量数据进行高性能处理，而是为了实现细粒度的容错。这种差异可能会使整体性能和有效性降低一个数量级乃至更多。一个Hadoop与大数据集成的重要用例是将大型ETL工作负载从企业数据仓库 (EDW) 卸载下来，以便降低成本并改善查询服务水平协议 (SLA)。该用例会引发以下问题： • 企业是否应卸载EDW中的所有ETL工作负载？ • 是否应将所有大数据集成工作负载都推送到Hadoop？ • 在没有并行关系数据库管理系统 (RDBMS) 和Hadoop 的情况下，大数据集成工作负载在ETL网格中发挥怎样的持续作用？选择并行RDBMS、Hadoop和可扩展的ETL网格来运行大数据集成工作负载。但无论选择哪种方法，信息基础架构都必须满足一个常见的要求：全面支持大规模可扩展处理。某些数据集成操作在RDBMS引擎内外的运行效率较高。同样，并非所有数据集成操作均适用于Hadoop环境。设计精妙的架构必须足够灵活，可以充分利用系统中每个环境的优势（参见图3）。在ETL网格中运行在数据库中运行在Hadoop中运行

0 码力 | 16 页 | 1.23 MB | 1 年前
3
大数据时代的Intel之Hadoop

HBase改迚和创新，为Hadoop提供实时数据处理能力针对行业的功能增强，应对丌同行业的大数据挑戓 Hive 0.9.0 交互式数据仓库 Sqoop 1.4.1 关系数据ETL工具 Flume 1.1.0 日志收集工具 Intel Hadoop Manager 2.2 安装、部署、配置、监控、告警和访问控制 Zookeeper 3.4.4 分布式协作服务

0 码力 | 36 页 | 2.50 MB | 1 年前
3
Hadoop 概述

击流数据、服务器日志、客户交易与交互、视频以及来自现场设备的传感器数据。 Hortonworks 或者 Cloudera 数据平台，以及 Informatica，使得企业能够优化 ETL(抽取、转换、加载)工作流程，以便在 Hadoop 中长期存储和处理大规模数据。 Hadoop 与企业工具的集成使得组织能够将内部和外部的所有数据用于获得完整的分析能力，并以此推动现代数据驱动业务的成功。

0 码力 | 17 页 | 583.90 KB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

支持 spark-shell/spark-sql 的交互式），提供原生的 Spark WebUI 供用户查看； * 通过访问 OSS、OTS、database 等外部数据源，实现更复杂的 ETL 处理，支持对 OSS 非结构化进行处理； * 使用 Spark 面向 MaxCompute 内外部数据开展机器学习，扩展应用场景；机器学习 PAI MaxCompute 内建支持的上百种机器学习算法，目前

0 码力 | 59 页 | 4.33 MB | 1 年前
3

共 4 条前往

页

大数集成 Hadoop IBM 时代 Intel 概述迁移阿里 MaxCompute 技术方案

分类

语言

格式

大数据集成与Hadoop - IBM

大数据时代的Intel之Hadoop

Hadoop 概述

Hadoop 迁移到阿里云MaxCompute 技术方案