這些年,我們一起追的HadoopOverhead 太高,但是彼此之間又沒有交集 Hadoop 掌握所有資料 (HDFS),但是只有一種玩法 (MapReduce)? 12 / 74 改造好呢?還是放棄好呢? 13 / 74 進擊的 Hadoop 14 / 74 改造 MapReduce Hadoop 掌握所有資料 (HDFS),但是提供多種玩法 (YARN)! 希望把 Hadoop 從 Batch 應用變成 Data MapReduce 改造前 Hadoop 原來的架構,MapReduce 是一切應用的基礎 所有 Job 都得轉換成 MapReduce 16 / 74 MapReduce 改造 Phase 1 先把 Resource Management 從 MapReduce 拉出來,變成 YARN Other YARN Frameworks 就有存在的可能了 17 / 74 MapReduce 改造 Phase 74 MapReduce 改造 Phase 3 把原先跑在 MapReduce 上的應用 (Hive、Pig),搬到更適合的 Computing Framework (比方說 Tez) 19 / 74 HDFS 也變強了: High Availability 可以有多個 Namespace 可以做 Snapshot I/O 速度快 2.5-5 倍 ... 改造 HDFS -> HDFS20 码力 | 74 页 | 45.76 MB | 1 年前3
Hadoop 迁移到阿里云MaxCompute 技术方案Airflow 等作业调度工具 Datawroks Studio 4.2 MMA 功能介绍 4.2.1 迁移评估分析 在迁移对 Hadoop 平台进行诊断分析,评估数据迁移规模、作业迁移改造的数量、预估迁 移后的成本,从而对迁移工作进行整体评估和决策。 4.2.2 数据迁移自动化 利用迁移工具,可以对 Hive Meta 及数据进行检测扫描,自动在 MaxCompute 创建对应 利用迁移工具,可以对 Hive 作业进行兼容性分析,识别出需要修改的任务并提供针对性的 兼容性修改建议。对于用户自定义逻辑的分析任务,如 UDF、MR/Spark 作业等,我们将给出 一般性的改造建议供用户参考。 4.2.4 数据集成及工作流作业迁移 迁移工具支持对主流数据集成工具 Sqoop 进行作业的迁移转换,并自动创建 Dataworks 数据集成作业;迁移工具支持主流 Pipeline ,制定迁移方案和计划。 5.2 阶段 2:试点/全面业务迁移 在确定开展迁移工作后,需要准备 MaxCompute 相关环境,并开展数据、分析作业、工作 流任务的改造和迁移工作。借助迁移工具,能够加速迁移改造的进程。 同时,需要对当前系统与 MaxCompute 环境进行业务对比验证,确定迁移的正确性。 迁移开展时,您可以选择部分试点业务迁移或全量业务进行迁移。对于规模较大的用户,建0 码力 | 59 页 | 4.33 MB | 1 年前3
共 2 条
- 1













