Hadoop 迁移到阿里云MaxCompute 技术方案
................................ 42 Alibaba Cloud MaxCompute 解决方案 4 6.5.1 Hive SQL -> MaxCompute SQL 自动转换 ..................................................................... 42 6.5.2 UDF、MR 的输出,调整 hive 与 odps 的映射 ................................................... 46 7.1.5 生成 ODPS DDL、Hive SQL 以及兼容性报告 ................................................................. 48 7.1.6 查看兼容性报告,调整直到兼容性报告符合预期 odps 表和分区 .............................................................. 50 7.1.8 运行 hive_udtf_sql_runner.py,将 hive 的数据同步到 odps ........................................ 51 7.2 进阶功能..............0 码力 | 59 页 | 4.33 MB | 1 年前3這些年,我們一起追的Hadoop
從 Batch 應用變成 Data Operating System: 透過 MapReduce 進行 Batch Processing 透過 Hive 與 Tez 進行 Interactive SQL Query ... 15 / 74 MapReduce 改造前 Hadoop 原來的架構,MapReduce 是一切應用的基礎 所有 Job 都得轉換成 MapReduce 16 / 74 Pig:High Level Language for Data Analysis (2010-09 成為 Top-Level Project) Hive:Data Warehousing and SQL-Like Query (2010-09 成為 Top-Level Project) Sqoop:Data Migration Tool Between HDFS and RDBMS Hadoop Query 與 PB-Scale Processing 的需求 三大目標: Speed:比 Hive 10 快 100 倍 Scale:撐的下 TB 到 PB 等級的資料 SQL Compatibility:最廣泛的 SQL 語法支援 13 個月內一共有來自 44 家公司 145 位 Developer 貢獻了 39 萬行程式碼給 Hive,產出 3 個 Release! 33 / 74 Stinger0 码力 | 74 页 | 45.76 MB | 1 年前3Hadoop 概述
。 还有其他一些系统能与 Hadoop 进行集成并从其基础架构中受 益。虽然 Hadoop 并不被认为是一种关系型数据库管理系统 (RDBMS),但其仍能与 Oracle、MySQL 和 SQL Server 等系统一起 工作。这些系统都已经开发了用于对接 Hadoop 框架的连接组件。 我们将在本章介绍这些组件中的一部分,并且展示它们如何与 Hadoop 进行交互。 1.1 商业分析与大数据 统的数据库或数据结构进行对比。它也不能取代现有的 RDBMS 环 Hadoop 大数据解决方案 8 境。Hive 提供了一种为数据赋予结构的渠道,并且通过一种名为 HiveQL 的类 SQL 语言进行数据查询。 Hive Thrift 服务器 驱动程序 解析器 执行 Hive Web 接口 计划器 优化器 MS 客户端 元存储 图 1-3 1 连接器。大多数供应商均有关于系统需求的详细信息。一般来说, 大量工具都会提到 Windows 操作系统或者基于 Windows 的组件, 这是因为基于 Windows 的 BI 工具得到了广泛使用。微软的 SQL Server 是用于数据库服务的首要 Windows 工具。使用该商业工具的 第 1 章 Hadoop 概述 13 组织将不再受大数据的约束。微软有能力通过提供灵活性以及增强0 码力 | 17 页 | 583.90 KB | 1 年前3通过Oracle 并行处理集成 Hadoop 数据
要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据,最简单的方法莫过于使用 外部表。请参阅这里了解外部表。 外部表以表的形式展示存储在文件系统中的数据,并且可在 SQL 查询中完全透明地使用。 因此,可以考虑用外部表从 Oracle 数据库中直接访问 HDFS(Hadoop 文件系统)中存储的 数据。遗憾的是,常规的操作系统无法调用外部表驱动直接访问 HDFS file containing two numbers CREATE OR REPLACE PACKAGE hdfs_reader IS -- Return type of pl/sql table function TYPE return_rows_t IS TABLE OF hadoop_row_obj; -- Checks if current invocation cluster import java.sql.*; //import oracle.jdbc.*; //import oracle.sql.*; import oracle.jdbc.pool.*; //import java.util.Arrays; //import oracle.sql.ARRAY; //import oracle.sql.ArrayDescriptor;0 码力 | 21 页 | 1.03 MB | 1 年前3尚硅谷大数据技术之Hadoop(入门)
YARN资源管理 MapReduce离线计算 Spark Core内存计算 Hive 数据查询 Spark Mlib 数据挖掘 Spark Streaming 实时计算 Spark Sql 数据查询 Oozie任务调度 Azkaban任务调度 业务模型、数据可视化、业务应用 Z o o k e e p e r 数 据 平 台 配 置 和 调 度 数据来源层 数据传输层 数据存储层 它是一个适合于非结构化数据存储的数据库。 8)Hive:Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张 数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运 行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开 发专门的 MapReduce 应用,十分适合数据仓库的统计分析。 9)ZooK YARN资源管理 MapReduce离线计算 Spark Core内存计算 Hive 数据查询 Spark Mlib 数据挖掘 Spark Streaming 实时计算 Spark Sql 数据查询 Oozie任务调度 Azkaban任务调度 Z o o k e e p e r 数 据 平 台 配 置 和 调 度 数据来源层 数据传输层 数据存储层 资源管理层 数据计算层0 码力 | 35 页 | 1.70 MB | 1 年前3Hadoop 3.0以及未来
Hadoop 3.0 2017 Hadoop生态系统 文件存储层 HDFS 资源/任务调度 YARN 计算引擎MapReduce 计算引擎Spark NoSQL HBase 数据仓 库SQL 机器/深 度学习 Batch 任务 流处理 搜索 … Kafka Hadoop 3介绍 • Common JDK 8+ 升级 Classpath隔离 Shell脚本的重构 Journal Node Write edit logs Read edit logs Block reports HDFS-6440 云计算-存储虚拟化 Hadoop 文件系统API SQL, 机器学习, 流处理, Batch… Hadoop 3介绍 • Common • HDFS • YARN YARN Timeline Service v.2 YARN Federation0 码力 | 33 页 | 841.56 KB | 1 年前3大数据集成与Hadoop - IBM
ETL工作负载会导致查询SLA降级,最终需要您额外投 资购买昂贵的EDW容量。 • 数据被转储到EDW之前未清理数据,一旦进入EDW环 境将永远无法进行清理工作,继而导致数据质量较差。 • 企业持续严重依赖手动编码SQL脚本来执行数据转换。 • 添加新数据源或修改现有ETL脚本较为昂贵并且需要很 长的时间,限制了快速响应最新需求的能力。 • 数据转换相对简单,因为无法使用ETL工具将较为复杂 的逻辑推送到RDBMS。 手动编码和工具成果来源:IBM制药客户示例 12 大数据集成与 Hadoop 最佳实践2:整个企业采用一个数据集成和治理平台 过度依赖向RDBMS推送ETL(由于缺乏可扩展数据集成软 件工具)会妨碍很多企业替换SQL脚本手动编码,更不要说 在企业中建立有效的数据治理机制。然而,他们意识到将大 型ETL工作负载从RDBMS迁移至Hadoop将会节约巨额成 本。尽管如此,从RDBMS中的ETL手动编码环境迁移至ETL0 码力 | 16 页 | 1.23 MB | 1 年前3大数据时代的Intel之Hadoop
• 2X的随机访问性能 • 1.3X的Scan性能 • 接近直接写入HDFS性能 Interactive Hive over HBase 可通过Hive来访问HBase,迚行SQL查询 • 使用MapReduce来实现 • 比Hive访问HDFS慢3~5倍 IDH引入了Interactive Hive over HBase • 完全的Hive支持:常用功能(select0 码力 | 36 页 | 2.50 MB | 1 年前3
共 8 条
- 1