调用约定 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

通过Oracle 并行处理集成 Hadoop 数据

外部表以表的形式展示存储在文件系统中的数据，并且可在 SQL 查询中完全透明地使用。因此，可以考虑用外部表从 Oracle 数据库中直接访问 HDFS（Hadoop 文件系统）中存储的数据。遗憾的是，常规的操作系统无法调用外部表驱动直接访问 HDFS 文件。FUSE（File System in Userspace）项目针对这种情况提供了解决方法。有多种 FUSE 驱动程序支持用户挂载 HDFS 存储，并将其不可用），外部表方法可能不适用。Oracle 表函数提供了从 Hadoop 中获取数据的替代方法。本文附带的示例展示了一种这样的方法。更深入地来讲，我们用一个表函数来实现，这个表函数使用 DBMS_SCHEDULER 框架异步调用外部shell 脚本，然后由这个shell脚本提交一个Hadoop Map-Reduce 作业。该表函数与映射器 (mapper) 之间使用 Oracle 高级队列特性进行通信。Hadoop mapper 第 1 步是确定由谁作为查询协调器。对此我们采用一种将具有相同键值的记录写入表的简单机制。首个插入胜出，作为此进程的查询协调器 (QC)。请注意，QC 表函数调用同时也承担着处理角色。在第 2 步中，该表函数调用 (QC) 使用 dbms_scheduler（图 3 中的作业控制器）启动一个异步作业，该作业接着在 Hadoop 集群上运行同步 bash 脚本。这个 bash

0 码力 | 21 页 | 1.03 MB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

2fbaa9 5emqdrea#concept-qbk-1kv-tdb 6. 表和分区创建完成以后，hive_udtf_sql_runner.py 将会遍历 meta-processor 生成的目录，调用 hive client 运行 hive udtf sql，从而将数据从 hive 上传至 MaxCompute。 Alibaba Cloud MaxCompute 解决方案 36

0 码力 | 59 页 | 4.33 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

bin]$ chmod +x xsync （c）测试脚本 [atguigu@hadoop102 ~]$ xsync /home/atguigu/bin （d）将脚本复制到/bin 中，以便全局调用 [atguigu@hadoop102 bin]$ sudo cp xsync /bin/ （e）同步环境变量配置（root 所有者） [atguigu@hadoop102 ~]$ sudo

0 码力 | 35 页 | 1.70 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（生产调优手册）

4）查看回收站回收站目录在 HDFS 集群中的路径：/user/atguigu/.Trash/…. 5）注意：通过网页上直接删除的文件也不会走回收站。 6）通过程序删除的文件不会经过回收站，需要调用 moveToTrash()才进入回收站 Trash trash = New Trash(conf); trash.moveToTrash(path); 7）只有在命令行利用 hadoop

0 码力 | 41 页 | 2.32 MB | 1 年前
3

共 4 条前往

页

通过 Oracle 并行处理并行处理集成 Hadoop 数据迁移阿里 MaxCompute 技术方案硅谷大数入门生产调优手册

分类

语言

格式

通过Oracle 并行处理集成 Hadoop 数据

Hadoop 迁移到阿里云MaxCompute 技术方案

尚硅谷大数据技术之Hadoop（入门）

尚硅谷大数据技术之Hadoop（生产调优手册）