Hadoop 迁移到阿里云MaxCompute 技术方案Datahub MaxCompute 配套的流式数据接入服务,粗略地类似 kafka,能够通过简单配置归档 topic 数据到 MaxCompute 表 用户接口 CLT/SDK 统一的命令行工具和 JAVA/PYTHON SDK 开发&诊断 Dataworks/Studio/Logview 配套的数据同步、作业开发、工作流编排调度、作业运维 及诊断工具。开源社区常见的 Sqoop、Kettle、Ozzie meta,以表名为文件名的 json 文件,如果是分区表还会有 partition meta, 同样是以表名为文件名的 json 文件。 5. 基于 Kerberos 做身份认证的 meta 连接参数配置 # sh odps-data-carrier/bin/meta-carrier -u thrift://xxx.xxx.xxx:9083 -o meta --principal hive/xxx 会自动批量将 Hive SQL 转换成 ODPS SQL,对于不能转换的 SQL,系统会给 出错误提示,需要客户手动修改。 6.5.2 UDF、MR 迁移 支持相同逻辑的 UDF、MR 输入、输出参数的映射转换,但 UDF 和 MR 内部逻辑需要客户自己 维护。【注意】:不支持在 UDF、MR 中直接访问文件系统、网络访问、外部数据源连接。 6.5.3 Spark 作业迁移 1. 【作业无需访问0 码力 | 59 页 | 4.33 MB | 1 年前3
共 1 条
- 1













