大数据集成与Hadoop - IBM作,可以先将 数据保存到运行映射操作的节点,再进行随机选择和发送以减 少操作。 MapReduce包含多种设施,可将较小的引用数据结构迁 移至各映射节点,以便执行某些验证和增强操作。因此,会将 整个引用文件迁移至各映射节点,这使其更适合较小的引用 数据结构。如果进行手动编码,必须考虑这些处理流,因此 最好采用一些工具来生成代码,从而将数据集成逻辑下推到 MapReduce(也称为ETL 相反,采用海量可扩展数据集成平台来优化大数据集成工作 负载的企业,则可最大限度降低潜在的负面影响,更有效地通 过大数据实现业务转型。 大数据集成最佳实践 决定采用Hadoop实施大数据措施后,如何在保护自己免受 Hadoop可变性影响的同时实施大数据集成项目? 10 大数据集成与 Hadoop 在与Hadoop技术的大量早期采用者共事的过程中,IBM总 结了5个基础大数据集成最佳实践。这5个原则体现了成功实 施大数据集成措施的最佳方法:0 码力 | 16 页 | 1.23 MB | 1 年前3
Hadoop 概述数据仓库基础设施,用于提供对数据的汇总、查询以及分析。如果 你在使用 Hadoop 工作时期望数据库的体验并且怀念关系型环境中 的结构(见图 1-3),那么它或许是你的解决方案。记住,这不是与传 统的数据库或数据结构进行对比。它也不能取代现有的 RDBMS 环 Hadoop 大数据解决方案 8 境。Hive 提供了一种为数据赋予结构的渠道,并且通过一种名为 HiveQL 的类 SQL 语言进行数据查询。 的支持,在用户桌面对并行 R 代码使用 R 语言风格的调试功能(见 图 1-10)。此连接器允许分析师将来自多种环境(客户桌面、HDFS、 Hive、Oracle 数据库和内存中的 R 语言数据结构)的数据组合到单个 分析任务执行的上下文中,从而简化数据的组装和准备。Oracle R Connector for Hadoop 也提供了一个通用的计算框架,用于并行执行 R 代码。 如本章所述,如果0 码力 | 17 页 | 583.90 KB | 1 年前3
Spark 简介以及与 Hadoop 的对比弹性分布数据集(RDD) RDD 是 Spark 的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式 来操作分布式数据集的抽象实现。RDD 是 Spark 最核心的东西,它表示已被分区,不可变的 并能够被并行操作的数据集合,不同的数据集格式对应不同的 RDD 实现。RDD 必须是可序 列化的。RDD 可以 cache 到内存中,每次对 RDD 数据集的操作之后的结果,都可以存放到0 码力 | 3 页 | 172.14 KB | 1 年前3
共 3 条
- 1













