Hadoop Shell 命令0 码力 | 10 页 | 99.34 KB | 1 年前3
尚硅谷大数据技术之Hadoop(生产调优手册)调用 moveToTrash()才进入回收站 Trash trash = New Trash(conf); trash.moveToTrash(path); 7)只有在命令行利用 hadoop fs -rm 命令删除的文件才会走回收站。 [atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /user/atguigu/input –python 人工智能资料下载,可百度访问:尚硅谷官网 3.3 集群数据均衡之磁盘间数据均衡 生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可 以执行磁盘数据均衡命令。(Hadoop3.x 新特性) (1)生成均衡计划(我们只有一块磁盘,不会生成计划) hdfs diskbalancer -plan hadoop103 (2)执行均衡计划 hdfs 另一种情况,就是新服役的服务器数据量比较少,需要执行集群均衡命令。 2)开启数据均衡命令: [atguigu@hadoop105 hadoop-3.1.3]$ sbin/start-balancer.sh - threshold 10 对于参数 10,代表的是集群中各个节点的磁盘空间利用率相差不超过 10%,可根据实 际情况进行调整。 3)停止数据均衡命令: [atguigu@hadoop1050 码力 | 41 页 | 2.32 MB | 1 年前3
Hadoop 迁移到阿里云MaxCompute 技术方案作业。 * 支持原生多版本 Spark 作业:Spark1.x/Spark2.x 作业 都可运行; * 开源系统的使用体验:Spark-submit 提交方式(暂不 支持 spark-shell/spark-sql 的交互式),提供原生的 Spark WebUI 供用户查看; * 通过访问 OSS、OTS、database 等外部数据源,实现 更复杂的 ETL 处理,支持对 OSS Datahub MaxCompute 配套的流式数据接入服务,粗略地类似 kafka,能够通过简单配置归档 topic 数据到 MaxCompute 表 用户接口 CLT/SDK 统一的命令行工具和 JAVA/PYTHON SDK 开发&诊断 Dataworks/Studio/Logview 配套的数据同步、作业开发、工作流编排调度、作业运维 及诊断工具。开源社区常见的 Sqoop、Kettle、Ozzie queue,如同客户的 hive 集群上没有 default queue,就需要客户指定队列名称,方法如下: ① 使用 hadoop queue -showacls | grep SUBMIT 命令查看 queue name ② 修改 odps-data-carrier/extra-settings.ini,添加 mapreduce.job.queuename=root.hadoop0 码力 | 59 页 | 4.33 MB | 1 年前3
尚硅谷大数据技术之Hadoop(入门)(3)注意:如果 Linux 安装的是最小系统版,还需要安装如下工具;如果安装的是 Linux 桌面标准版,不需要执行如下操作 ➢ net-tool:工具包集合,包含 ifconfig 等命令 [root@hadoop100 ~]# yum install -y net-tools ➢ vim:编辑器 [root@hadoop100 ~]# yum install -y vim useradd atguigu [root@hadoop100 ~]# passwd atguigu 4)配置 atguigu 用户具有 root 权限,方便后期加 sudo 执行 root 权限的命令 [root@hadoop100 ~]# vim /etc/sudoers 修改/etc/sudoers 文件,在%wheel 这行下面添加一行,如下所示: ## Allow root to /etc/profile 6)测试是否安装成功 [atguigu@hadoop102 hadoop-3.1.3]$ hadoop version Hadoop 3.1.3 7)重启(如果 Hadoop 命令不能用再重启虚拟机) [atguigu@hadoop102 hadoop-3.1.3]$ sudo reboot 2.5 Hadoop 目录结构 1)查看 Hadoop 目录结构 [atguigu@hadoop1020 码力 | 35 页 | 1.70 MB | 1 年前3
Hadoop开发指南2012-2021 UCloud 优刻得 6/12 注解: 1. 需要在执⾏此命令机器加上集群所有节点host 2. 若提⽰Operation category READ is not supported in state standby,请更换uhadoop-******-master2尝试 执⾏上述命令将获取到Location地址,即⽂件的Datanode地址 HTTP/1.1 307 7/12 curl -i -X POST "http://uhadoop-hfygbg-master1:50070/webhdfs/v1/tmp/uhadoop.txt?op=APPEND" 执⾏上述命令将获取到Location地址,即⽂件的Datanode地址 HTTP/1.1 307 TEMPORARY_REDIRECT Location: http://: /webhdfs/v1/ master1:14000/webhdfs/v1/tmp/httpfs_uhadoop.txt?op=CREATE&user.name=root&data=true" 注解: 1. 需要在执⾏此命令机器加上集群master1的host 2. url中需添加user.name,否则会报"HTTP Status 401 - Authentication required"错误 2.3.2 append⽂件 0 码力 | 12 页 | 135.94 KB | 1 年前3
Hadoop 3.0以及未来升级 Classpath隔离 Shell脚本的重构 • HDFS • YARN • MapReduce Classpath隔离 • HADOOP-11656, HDFS-6200 问题:依赖性地狱(Dependency Hell),版本冲突 解决方案:客户端(client-side)和服务器端(server-side)的隔离 Shell脚本的重构 - HADOOP-9902 • • 脚本重构,提升可维护性和易用性 • 修正一些长期存在的bugs • 加入一些改进 • 加入一些新功能 • 带来一些不兼容性 • Shell脚本现在更易于调试: --debug Hadoop 3介绍 • Common • HDFS 纠错码(Erasure Coding) 多个Standby Namenode Datanode内部balance工具 云计算平台的支持 •0 码力 | 33 页 | 841.56 KB | 1 年前3
通过Oracle 并行处理集成 Hadoop 数据从 Hadoop 中获取数据的替代方法。本文附带的示例展示了一种这样的方法。更深入地来 讲,我们用一个表函数来实现,这个表函数使用 DBMS_SCHEDULER 框架异步调用外部shell 脚本,然后由这个shell脚本提交一个Hadoop Map-Reduce 作业。该表函数与映射器 (mapper) 之 间使用 Oracle 高级队列特性进行通信。Hadoop mapper 将数据排入一个公共队列,而表函数则 启动之后,作业监控器进程将监视启动程序脚本。一旦mapper 完成 Hadoop 集群中数据的处理之后,bash 脚本即完成,如图 4 所示。 作业监控器将监视数据库调度程序队列,并在 shell 脚本完成时发出通知(第 7 步)。作业监 控器检查数据队列中的剩余数据元素(第 8 步)。只要队列中存在数据,表函数调用就会继 续处理数据(第 6 步)。 60 码力 | 21 页 | 1.03 MB | 1 年前3
共 7 条
- 1













