大数据时代的Intel之Hadoop关系数据ETL工具 Flume 1.1.0 日志收集工具 Intel Hadoop Manager 2.2 安装、部署、配置、监控、告警和访问控制 Zookeeper 3.4.4 分布式协作服务 Pig 0.9.2 数据流处理语言 Mahout 0.6 数据挖掘 HBase 0.94.1 实时、分布式、高维数据库 Map/Reduce 1.0.3 分布式计算框架 • 将图片存入HDFS,管理使用麻烦 IDH引入了表外存储以解决大对象的高效存储问题 • 类似Oracle的BLOB存储 • 对用户透明 • 2X以上的写入性能,还有迚一步提升的空间 • 2X的随机访问性能 • 1.3X的Scan性能 • 接近直接写入HDFS性能 Interactive Hive over HBase 可通过Hive来访问HBase,迚行SQL查询0 码力 | 36 页 | 2.50 MB | 1 年前3
大数据集成与Hadoop - IBM建议步骤: • 查找:利用条款、标记和集合来查找接受治理和监管的 数据源 • 监管:为相关资产添加标记、条款和自定义属性 • 收集:通过收集来捕获资产,并开展具体的分析或治理 工作 • 协作:共享其他内容管理和治理集合 • 治理:创建并引用信息治理策略和规则;应用数据质 量、屏蔽、归档和清除操作 • 卸载:单击HDFS来复制数据并执行分析,以便强化仓库 • 分析:分析已卸载的数据0 码力 | 16 页 | 1.23 MB | 1 年前3
尚硅谷大数据技术之Hadoop(生产调优手册)—————————————————— 更多 Java –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网 3.3 集群数据均衡之磁盘间数据均衡 生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可 以执行磁盘数据均衡命令。(Hadoop3.x 新特性) (1)生成均衡计划(我们只有一块磁盘,不会生成计划) hdfs diskbalancer [atguigu@hadoop105 hadoop-3.1.3]$ sbin/start-balancer.sh - threshold 10 对于参数 10,代表的是集群中各个节点的磁盘空间利用率相差不超过 10%,可根据实 际情况进行调整。 3)停止数据均衡命令: [atguigu@hadoop105 hadoop-3.1.3]$ sbin/stop-balancer.sh 纠删码原理 HDFS 默认情况下,一个文件有 3 个副本,这样提高了数据的可靠性,但也带来了 2 倍 的冗余开销。Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约 50%左右的存储空间。 尚硅谷大数据技术之 Hadoop(生产调优手册) ——————————————————————————————————————— 更多 Java0 码力 | 41 页 | 2.32 MB | 1 年前3
银河麒麟服务器操作系统V4 Hadoop 软件适配手册NameNode 作为 master 服务,它负责管理文件系统的命名空间和客户端对文 件的访问。NameNode 会保存文件系统的具体信息,包括文件信息、文件被分割 成具体 block 块的信息、以及每一个 block 块归属的 DataNode 的信息。对于整个 集群来说,HDFS 通过 NameNode 对用户提供了一个单一的命名空间。 DataNode 作为 slave 服务,在集群中可以存在多个。通常每一个 dir/usr/local/hadoop-2.7.7/hdfs/name namenode 上存储 hdfs 名字空间元数据 dfs.data.dir /usr/local/hadoop-2 0 码力 | 8 页 | 313.35 KB | 1 年前3
Hadoop 概述群集上横跨多台服务器的可扩展性。为实现资源管理,可考虑将 Hadoop YARN 加入到软件栈中,它是面向大数据应用程序的分布式 操作系统。 ZooKeeper 是另一个 Hadoop Stack 组件,它能通过共享层次名 称空间的数据寄存器(称为 znode),使得分布式进程相互协调工作。 每个 znode 都由一个路径来标识,路径元素由斜杠(/)分隔。 还有其他一些系统能与 Hadoop 进行集成并从其基础架构中受 产)作为一个系统进行交互的共同体。基于技术的生态系统也有类似 的属性。它是产品平台的结合,由平台拥有者所开发的核心组件所 定义,辅之以自动化(机器脱离人类自主运转)企业在其周边(围绕着 一个空间)所开发的应用程序。 以 Apache 的多种可用产品和大量供应商提供的将 Hadoop 与企 业工具相集成的解决方案为基础,Hadoop 的开放源码和企业生态系 统还在不断成长。HDFS是0 码力 | 17 页 | 583.90 KB | 1 年前3
Hadoop 迁移到阿里云MaxCompute 技术方案3 项目描述文件说明/project.xml: tenantId: 用户在 dataworks 上的租户 ID; name: 用户事先在 dataworks 上创建好的项目空间名称;owner: 用户的阿里云账号 ID。 Alibaba Cloud MaxCompute 解决方案 41 6.4.3.4 工作流描述文件说明/workflow.xml: 项目描述文档,参见 6.4.2。 2. 上传完成后,在 Dataworks 上做 SQL 语法转换,参见 6.5.1.2。 3. 转换后的 SQL 会根据 workflow.xml 中的配置,自动生成项目空间下开发环境的工作流节 点。 4. 客户可以运行测试实例,验证后发布到生产环境。 7 经典用例 7.1 基本功能 7.1.1 准备工具和环境 预先下载好工具包:odps-data-carrier0 码力 | 59 页 | 4.33 MB | 1 年前3
共 6 条
- 1













