协作空间 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

大数据时代的Intel之Hadoop

关系数据ETL工具 Flume 1.1.0 日志收集工具 Intel Hadoop Manager 2.2 安装、部署、配置、监控、告警和访问控制 Zookeeper 3.4.4 分布式协作服务 Pig 0.9.2 数据流处理语言 Mahout 0.6 数据挖掘 HBase 0.94.1 实时、分布式、高维数据库 Map/Reduce 1.0.3 分布式计算框架 • 将图片存入HDFS，管理使用麻烦 IDH引入了表外存储以解决大对象的高效存储问题 • 类似Oracle的BLOB存储 • 对用户透明 • 2X以上的写入性能，还有迚一步提升的空间 • 2X的随机访问性能 • 1.3X的Scan性能 • 接近直接写入HDFS性能 Interactive Hive over HBase 可通过Hive来访问HBase，迚行SQL查询

0 码力 | 36 页 | 2.50 MB | 1 年前
3
大数据集成与Hadoop - IBM

建议步骤： • 查找：利用条款、标记和集合来查找接受治理和监管的数据源 • 监管：为相关资产添加标记、条款和自定义属性 • 收集：通过收集来捕获资产，并开展具体的分析或治理工作 • 协作：共享其他内容管理和治理集合 • 治理：创建并引用信息治理策略和规则；应用数据质量、屏蔽、归档和清除操作 • 卸载：单击HDFS来复制数据并执行分析，以便强化仓库 • 分析：分析已卸载的数据

0 码力 | 16 页 | 1.23 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（生产调优手册）

—————————————————— 更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网 3.3 集群数据均衡之磁盘间数据均衡生产环境，由于硬盘空间不足，往往需要增加一块硬盘。刚加载的硬盘没有数据时，可以执行磁盘数据均衡命令。（Hadoop3.x 新特性）（1）生成均衡计划（我们只有一块磁盘，不会生成计划） hdfs diskbalancer [atguigu@hadoop105 hadoop-3.1.3]$ sbin/start-balancer.sh - threshold 10 对于参数 10，代表的是集群中各个节点的磁盘空间利用率相差不超过 10%，可根据实际情况进行调整。 3）停止数据均衡命令： [atguigu@hadoop105 hadoop-3.1.3]$ sbin/stop-balancer.sh 纠删码原理 HDFS 默认情况下，一个文件有 3 个副本，这样提高了数据的可靠性，但也带来了 2 倍的冗余开销。Hadoop3.x 引入了纠删码，采用计算的方式，可以节省约 50％左右的存储空间。尚硅谷大数据技术之 Hadoop（生产调优手册） ——————————————————————————————————————— 更多 Java

0 码力 | 41 页 | 2.32 MB | 1 年前
3
银河麒麟服务器操作系统V4 Hadoop 软件适配手册

NameNode 作为 master 服务，它负责管理文件系统的命名空间和客户端对文件的访问。NameNode 会保存文件系统的具体信息，包括文件信息、文件被分割成具体 block 块的信息、以及每一个 block 块归属的 DataNode 的信息。对于整个集群来说，HDFS 通过 NameNode 对用户提供了一个单一的命名空间。 DataNode 作为 slave 服务，在集群中可以存在多个。通常每一个 dir /usr/local/hadoop-2.7.7/hdfs/name namenode 上存储 hdfs 名字空间元数据 dfs.data.dir /usr/local/hadoop-2

0 码力 | 8 页 | 313.35 KB | 1 年前
3
Hadoop 概述

群集上横跨多台服务器的可扩展性。为实现资源管理，可考虑将 Hadoop YARN 加入到软件栈中，它是面向大数据应用程序的分布式操作系统。 ZooKeeper 是另一个 Hadoop Stack 组件，它能通过共享层次名称空间的数据寄存器(称为 znode)，使得分布式进程相互协调工作。每个 znode 都由一个路径来标识，路径元素由斜杠(/)分隔。还有其他一些系统能与 Hadoop 进行集成并从其基础架构中受产)作为一个系统进行交互的共同体。基于技术的生态系统也有类似的属性。它是产品平台的结合，由平台拥有者所开发的核心组件所定义，辅之以自动化(机器脱离人类自主运转)企业在其周边(围绕着一个空间)所开发的应用程序。以 Apache 的多种可用产品和大量供应商提供的将 Hadoop 与企业工具相集成的解决方案为基础，Hadoop 的开放源码和企业生态系统还在不断成长。HDFS是

0 码力 | 17 页 | 583.90 KB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

3 项目描述文件说明/project.xml：  tenantId: 用户在 dataworks 上的租户 ID；  name: 用户事先在 dataworks 上创建好的项目空间名称；owner: 用户的阿里云账号 ID。 Alibaba Cloud MaxCompute 解决方案 41 6.4.3.4 工作流描述文件说明/workflow.xml：项目描述文档，参见 6.4.2。 2. 上传完成后，在 Dataworks 上做 SQL 语法转换，参见 6.5.1.2。 3. 转换后的 SQL 会根据 workflow.xml 中的配置，自动生成项目空间下开发环境的工作流节点。 4. 客户可以运行测试实例，验证后发布到生产环境。 7 经典用例 7.1 基本功能 7.1.1 准备工具和环境预先下载好工具包：odps-data-carrier

0 码力 | 59 页 | 4.33 MB | 1 年前
3

共 6 条前往

页

大数时代 Intel Hadoop 集成 IBM 硅谷技术生产调优手册银河麒麟服务务器服务器操作系统操作系统 V4 软件适配概述迁移阿里 MaxCompute 方案

分类

语言

格式

大数据时代的Intel之Hadoop

大数据集成与Hadoop - IBM

尚硅谷大数据技术之Hadoop（生产调优手册）

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

Hadoop 概述

Hadoop 迁移到阿里云MaxCompute 技术方案