Hadoop 迁移到阿里云MaxCompute 技术方案
及开源生态与阿里云大数据生态对比 2.1.1 主流大数据体系架构 Hadoop 及开源生态由一系列的开源组件共同组成,很多用户基于 Hadoop 及开源生态组件构 建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括: 数据源:数据源包括关系型数据库、日志文件、实时消息等。 数据存储:面向海量数据存储的分布式文件存储服务,支持 分析型数据存储:对数据进行处理加工后,面向应用场景,将数据以结构化的方式进行存储, 以便分析工具或分析应用能够获取数据。如利用 MPP 数据仓库、Spark SQL 等支持 BI 工具 访问,利用 Hbase 实现低延迟的在线服务等 分析与报表:对数据进行分析和展现以获取洞察。如 BI 工具、jupyter 等。 数据作业编排:将多个数据处理动作(数据移动、处理转换等)编排成为工作流并周期性地 执行以实现数据处理工作的自动化。如 GreenPlum/Impala/Presto/Hive NoSQL:Hbase 数据仓库:MaxCompute/ Hologres/分析 型数据库 NoSQL:云数据库 Hbase 版/表格存储 分析与报表 BI 工具 Notebook QuickBI PAI Notebook 组件 EMR Notebook 组件 数据作业编排 Oozie/Azkaban/Airflow Sqooq0 码力 | 59 页 | 4.33 MB | 1 年前3Hadoop 概述
是一个商用(几乎没有额外成本)的 解决方案,因此 HDP 使得你能够将其部署到云端或者自己的数据 中心。 HDP 为你提供数据平台基础以供搭建自己的 Hadoop 基础设 施,这包括一长串商业智能(BI)及其他相关供应商的列表。平台的 设计目标是支持处理多种来源及格式的数据,并且允许设计自定义 解决方案。资源列表过大,以至于无法在这里展示,强烈推荐直接 从供应商处获取此信息。选择像 HDP 这样产品的美妙之处在于他们 Hadoop,包括为 HDFS、HBase、Pig、Sqoop 和 Hive 提 供连接器(见图 1-6)。 基于 Hadoop 的应用程序具有良好的平衡性,能够支持 Windows 平台并与微软的 BI 工具(例如 Excel、Power View 和 PowerPivot)良 Hadoop 大数据解决方案 12 好地集成,创造出轻松分析这些大规模商业信息的独特方式。 访问数据 一起工作的 RDBMS 连接器。大多数供应商均有关于系统需求的详细信息。一般来说, 大量工具都会提到 Windows 操作系统或者基于 Windows 的组件, 这是因为基于 Windows 的 BI 工具得到了广泛使用。微软的 SQL Server 是用于数据库服务的首要 Windows 工具。使用该商业工具的 第 1 章 Hadoop 概述 13 组织将不再受大数据的约束。微软有能力通过提供灵活性以及增强0 码力 | 17 页 | 583.90 KB | 1 年前3這些年,我們一起追的Hadoop
In-Memory Process 來處理 Compliant with ANSI-92 SQL Standard,所以透過 Cloudera ODBC Driver for Impala,就可以跟既有的 BI/DW 工具整合 52 / 74 Presto Facebook 主導,2012 年秋天開始發展,2013 年春天開始推 廣,作為 Facebook Data Warehouse 的 Query 切入:使用介面無障礙 從 Hive 切入:SQL 跟 HiveQL 很接近 從 Impala 切入:Hive 的競爭對手,大家都支援 ANSI-SQL 從 Sqoop 切入:善用 JDBC 的經驗,整合 RDBMS/BI/DW 從 HBase 切入:學習 NoSQL ... 63 / 74 MySQL Hadoop Applier 直接讀取 MySQL 的 Binary Log Event,透過 libhdfs0 码力 | 74 页 | 45.76 MB | 1 年前3通过Oracle 并行处理集成 Hadoop 数据
execute DBMS_AQADM.START_QUEUE ('HADOOP_MR_QUEUE'); -- Query being executed by an end user or BI tool -- Note the hint is not a real hint, but a comment -- to clarify why we use the cursor select0 码力 | 21 页 | 1.03 MB | 1 年前3尚硅谷大数据技术之Hadoop(入门)
bin:/usr/local/sbin:/usr/sbin:/home/atgu igu/.local/bin:/home/atguigu/bin:/opt/module/jdk1.8.0_212/bi n (3)脚本实现 (a)在/home/atguigu/bin 目录下创建 xsync 文件 [atguigu@hadoop102 opt]$ cd /home/atguigu [atguigu@hadoop1020 码力 | 35 页 | 1.70 MB | 1 年前3
共 5 条
- 1