类型声明空间 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

尚硅谷大数据技术之Hadoop（生产调优手册）

—————————————————— 更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网 3.3 集群数据均衡之磁盘间数据均衡生产环境，由于硬盘空间不足，往往需要增加一块硬盘。刚加载的硬盘没有数据时，可以执行磁盘数据均衡命令。（Hadoop3.x 新特性）（1）生成均衡计划（我们只有一块磁盘，不会生成计划） hdfs diskbalancer [atguigu@hadoop105 hadoop-3.1.3]$ sbin/start-balancer.sh - threshold 10 对于参数 10，代表的是集群中各个节点的磁盘空间利用率相差不超过 10%，可根据实际情况进行调整。 3）停止数据均衡命令： [atguigu@hadoop105 hadoop-3.1.3]$ sbin/stop-balancer.sh 纠删码原理 HDFS 默认情况下，一个文件有 3 个副本，这样提高了数据的可靠性，但也带来了 2 倍的冗余开销。Hadoop3.x 引入了纠删码，采用计算的方式，可以节省约 50％左右的存储空间。尚硅谷大数据技术之 Hadoop（生产调优手册） ——————————————————————————————————————— 更多 Java

0 码力 | 41 页 | 2.32 MB | 1 年前
3
Hadoop 概述

群集上横跨多台服务器的可扩展性。为实现资源管理，可考虑将 Hadoop YARN 加入到软件栈中，它是面向大数据应用程序的分布式操作系统。 ZooKeeper 是另一个 Hadoop Stack 组件，它能通过共享层次名称空间的数据寄存器(称为 znode)，使得分布式进程相互协调工作。每个 znode 都由一个路径来标识，路径元素由斜杠(/)分隔。还有其他一些系统能与 Hadoop 进行集成并从其基础架构中受得益于使用 Hadoop。由于 Hadoop 是分布式的(而非集中式的)，因而不具备关系型数据库管理系统(RDBMS)的特点。这使得你能够使用 Hadoop 所提供的大型数据存储和多种数据类型。第 1 章 Hadoop 概述 3 例如，让我们考虑类似 Google、Bing 或者 Twitter 这样的大型数据存储。所有这些数据存储都会随着诸如查询和庞大用户基数等的功能使得它成为最常用的批处理工具之一。该处理器的灵活性使其能利用自身的影响力来挑战现有系统。通过将数据处理的工作负载分为多个并行执行的任务，MapReduce 允许其用户处理存储于 HDFS 上不限数量的任意类型的数据。因此，MapReduce 让 Hadoop 成为了一款强大工具。在 Hadoop 最近的发展中，另有一款称为 YARN 的组件已经可用于进一步管理 Hadoop 生态系统。 1

0 码力 | 17 页 | 583.90 KB | 1 年前
3
大数据时代的Intel之Hadoop

大数据时代的Intel乊Hadoop 系统方案架构师：朱海峰英特尔®中国于计算创新中心 2013.4 北京法律声明本文所提供乊信息均不英特尔® 产品相关。本文丌代表英特尔公司戒其它机构向仸何人明确戒隐含地授予仸何知识产权。除相关产品的英特尔销售条款不条件中列明乊担保条件以外，英特尔公司丌对销售和/戒使用英特尔产品做出其它仸何明确戒隐含的担保，包括对适用亍特定用途、适销对英特尔及其子公司、分包商和分支机构，以及相关的董事、管理人员和员工造成损害，无论英特尔及其分包商在英特尔产品戒其仸何部件的设计、制造戒警示环节是否出现疏忽大意的情冴。英特尔可以随时在丌发布声明的情冴下修改规格和产品说明。设计者丌应信赖仸何英特产品所丌具有的特性，设计者亦丌应信赖仸何标有保留权利摂戒未定义摂说明戒特性描述。英特尔保留今后对其定义的权利，对亍因今后对其迚行修改所产生的冲突戒 • 将图片存入HDFS，管理使用麻烦 IDH引入了表外存储以解决大对象的高效存储问题 • 类似Oracle的BLOB存储 • 对用户透明 • 2X以上的写入性能，还有迚一步提升的空间 • 2X的随机访问性能 • 1.3X的Scan性能 • 接近直接写入HDFS性能 Interactive Hive over HBase 可通过Hive来访问HBase，迚行SQL查询

0 码力 | 36 页 | 2.50 MB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

compiler，语言功能开发更灵活，迭代快，语法语义检查更加灵活高效 * 基于代价的优化器，更智能，更强大，更适合复杂的查询 * 基于 LLVM 的代码生成，让执行过程更高效 * 支持复杂数据类型(array,map,struct) * 支持 Java、Python 语言的 UDF/UDAF/UDTF * 语法：Values、CTE、SEMIJOIN、FROM 倒装、 Subquery useSubjectCredsOnly=false 6.3.1.2 客户信息收集模板  客户需要登录到 Dataworks 填写“Hadoop 搬站信息”表单，需提供如下信息：  Hadoop 类型和版本（CDH 自建、CDH 云上自建、Hadoop IDC 自建、Hadoop 云上自建、云上托管 EMR）  集群规模（服务器台数） Alibaba Cloud MaxCompute 常用组件（Hive、Spark、Storm、HBase、Flink、Kafa、Impala、Sqoop、Kylin、Flume）  机器配置（CPU 核数、内存大小）  数据量及存储类型  作业量及作业类型（SQL 脚本上传）  调度系统及周期（Pipeline 配置上传）  已有数据应用（如血缘、监控、质量等）  上层应用系统（如帆软 BI、推荐系统等） 

0 码力 | 59 页 | 4.33 MB | 1 年前
3
银河麒麟服务器操作系统V4 Hadoop 软件适配手册

能、安全性及可扩展性等方面的需求，是一款具有高安全、高可用、高可靠、高性能的自主可控服务器操作系统。 1.2 环境概述服务器型号长城信安擎天 DF720 服务器 CPU 类型飞腾 2000+处理器操作系统版本 Kylin-4.0.2-server-sp2-2000-19050910.Z1 内核版本 4.4.131 hadoop 版本 2.7.7 NameNode 作为 master 服务，它负责管理文件系统的命名空间和客户端对文件的访问。NameNode 会保存文件系统的具体信息，包括文件信息、文件被分割成具体 block 块的信息、以及每一个 block 块归属的 DataNode 的信息。对于整个集群来说，HDFS 通过 NameNode 对用户提供了一个单一的命名空间。 DataNode 作为 slave 服务，在集群中可以存在多个。通常每一个 dir /usr/local/hadoop-2.7.7/hdfs/name namenode 上存储 hdfs 名字空间元数据 dfs.data.dir /usr/local/hadoop-2

0 码力 | 8 页 | 313.35 KB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

-av /opt/module atguigu@hadoop103:/opt/ （b）期望脚本： xsync 要同步的文件名称（c）期望脚本在任何路径都能使用（脚本放在声明了全局环境变量的路径） [atguigu@hadoop102 ~]$ echo $PATH /usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/atgu

0 码力 | 35 页 | 1.70 MB | 1 年前
3
MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

ImageDatastore 6 tall arrays ▪ tall array – 一种新的数据类型，专门用于处理大数据. – 用于处理数据规模超过单个机器或群集的内存承载能力的数据集合 ▪ 使用方式等同于MATLAB 数组(array) – 支持数据类型包括数值型、字符串、时间类型、表等… – 支持众多基本的数学函数、统计函数、索引函数等. – 支持机器学习算法包括分类、聚类和回归

0 码力 | 17 页 | 1.64 MB | 1 年前
3
Spark 简介以及与 Hadoop 的对比

灵活 1. Spark 提供的数据集操作类型有很多种，不像 Hadoop 只提供了 Map 和 Reduce 两种操作。比如 map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy 等多种操作类型，Spark 把这些操作称为 Transformations。同时还提供 Transformations。同时还提供 Count, collect, reduce, lookup, save 等多种 actions 操作。 2. 这些多种多样的数据集操作类型，给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像 Hadoop 那样就是唯一的 Data Shuffle 一种模式。用户可以命名，物化，控制中间结果的存储、分区等。可以说编程模型比 Hadoop

0 码力 | 3 页 | 172.14 KB | 1 年前
3
大数据集成与Hadoop - IBM

希望获得更出色的洞察、新产品、新服务以及更高的服务水平，都可以通过这项技术一一实现，从而大幅降低成本并创造新的收入。依靠收集、移动、转换、清除、集成、治理、探索以及分析多种不同来源的大量不同类型的数据来实现大数据与Hadoop项目。实现所有这些目标需要运用富有弹性的端到端信息集成解决方案，该解决方案不仅可实现大规模扩展，还能提供支持 Hadoop项目所需的基础架构、功能、流程和行为准则。

0 码力 | 16 页 | 1.23 MB | 1 年前
3

共 9 条前往

页

分类

语言

格式