运维能力 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Hadoop 迁移到阿里云MaxCompute 技术方案

越来越复杂的技术架构和运维成本、平台的稳定性和安全性、资源的弹性伸缩能力都遇到了瓶颈，严重阻碍了客户数据业务的发展。随着云计算技术的发展和普及，越来越多的企业客户选择数据上云，在云上构建数据仓库。以云数仓、云计算为核心的企业服务架构成为新一代大数据建站的主流趋势。MaxCompute 作为云数仓、云计算的核心引擎，承载了越来越多企业客户的数据业务和数据资产，免运维、低成本、高度安 Alibaba Cloud MaxCompute 解决方案 12 续将提供兼容 ORC 的 Ali-ORC 存储格式支持外表，将存储在 OSS 对象存储、OTS 表格存储的数据映射为二维表支持 Partition、Bucket 的分区、分桶存储更底层不是 HDFS，是阿里自研的盘古文件系统，但可借助 HDFS 理解对应的表之下文件的体系结构、任务并发机制使用 Spark 面向 MaxCompute 内外部数据开展机器学习，扩展应用场景；机器学习 PAI MaxCompute 内建支持的上百种机器学习算法，目前 MaxCompute 的机器学习能力由 PAI 产品进行统一提供服务，同时 PAI 提供了深度学习框架、Notebook 开发环境、GPU 计算资源、模型在线部署的弹性预测服务。 MaxCompute 的数据对 PAI 产品无缝集成。

0 码力 | 59 页 | 4.33 MB | 1 年前
3
Hadoop开发指南

/tmp/terasort_input /tmp/terasort_output Hadoop开发指南 Copyright © 2012-2021 UCloud 优刻得 10/12 2.5 HDFS⽇常运维⽇常运维 2.5.1 重启服务重启服务重启Namenode：service hadoop-hdfs-namenode restart 重启Datanode：service hadoop-hdfs-datanode

0 码力 | 12 页 | 135.94 KB | 1 年前
3
大数据时代的Intel之Hadoop

持续实时产生数据，年增长率超过60％主要为结构化数据半结构化，非结构化，多维数据 ―大数据‖ 挃数据集的大小超过了现有典型的数据库软件和工具的处理能力。不此同时，及时捕捉、存储、聚合、管理这些大数据以及对数据的深度分析的新技术和新能力，正在快速增长，就像预测计算芯片增长速度的摩尔定律一样。 — McKinsey Global Institute 统计和报表价值软硬结合 Intel Hadoop商业发行版优化的大数据处理软件栈稳定的企业级hadoop发行版利用硬件新技术迚行优化 HBase改迚和创新，为Hadoop提供实时数据处理能力针对行业的功能增强，应对丌同行业的大数据挑戓 Hive 0.9.0 交互式数据仓库 Sqoop 1.4.1 关系数据ETL工具 Flume 1.1.0 日志收集工具安装、部署、配置、监控、告警和访问控制 Zookeeper 3.4.4 分布式协作服务 Pig 0.9.2 数据流处理语言 Mahout 0.6 数据挖掘 HBase 0.94.1 实时、分布式、高维数据库 Map/Reduce 1.0.3 分布式计算框架 HDFS 1.0.3 分布式文件系统 R 统计语言 Intel Hadoop Manager – 安装、配置、管理、监控、告警

0 码力 | 36 页 | 2.50 MB | 1 年前
3
大数据集成与Hadoop - IBM

关键成功因素：大数据集成平台必须支持全部三个维度的可扩展性 • 线性数据可扩展性：硬件和软件系统通过线性增加硬件资源来线性提高处理吞吐量。例如，如果在50个处理器上运行4小时可以处理200GB数据，在100个处理器上运行4小时可以处理400GB数据，以此类推，则说明应用程序可以实现线性数据可扩展性。 • 应用程序纵向扩展：衡量软件在一个对称多处理器 (SMP) 系统中的多个处理器间实现线性数据可扩展性的据分区执行相同的应用程序逻辑）。使用软件数据流来实施项目软件数据流通过简化在一个或多个节点实施和执行数据管道和数据分区的过程，从而充分利用非共享架构。软件数据流还可以将构建和优化多位用户运行的并行应用程序的复杂问题隐藏起来。利用数据分区实现线性数据可扩展性大数据集分散在多个独立节点间，单个作业对所有分区数据执行相同的应用程序逻辑。形成设计隔离的环境设计一个数据处理作业，数据整合到相同的节点，因此该流程不仅性能高，而且很准确。虽然有很多方法可以应对数据并置支持缺乏的问题，但费用往往十分昂贵－通常需要额外的应用程序处理和/或重建工作。另外，HDFS文件不可更改（只读），处理HDFS文件类似于运行全表扫描，往往需要处理全部数据。对于像联接两个超大表这样的操作应该发出危险信号，因为没有将数据并置到同一 Hadoop节点。 MapReduce V1是一个并行处理框架，并非用于高性能处理

0 码力 | 16 页 | 1.23 MB | 1 年前
3
Hadoop 概述

Hadoop Hadoop 是一种用于管理大数据的基本工具。这种工具满足了企业在大型数据库(在 Hadoop 中亦称为数据湖)管理方面日益增长的需求。当涉及数据时，企业中最大的需求便是可扩展能力。科技和商业促使各种组织收集越来越多的数据，而这也增加了高效管理这些数据的需求。本章探讨 Hadoop Stack，以及所有可与 Hadoop 一起使用的相关组件。在构建 Hadoop 1.1.3 MapReduce 是什么 MapReduce 是 Hadoop 的一个编程组件，用于处理和读取大型数据集。MapReduce 算法赋予了 Hadoop 并行化处理数据的能力。简而言之，MapReduce 用于将大量数据浓缩为有意义的统计分析结果。MapReduce 可以执行批处理作业，即能在处理过程中多次读取大量数据来产生所需的结果。对于拥有大型数据存储或者数据湖的企业和组织来说，这是一们拥有多少资源。它运行了多种服务，其中最重要的是用于决定如何分配资源的资源调度器。节点管理器(每个群集中有多个)是此基础设施的从节点。当开始运行时，它向资源管理器声明自己。此类节点有能力向群集提供资源，它的资源容量即内存和其他资源的数量。在运行时，资源调度器将决定如何使用该容量。Hadoop 2 中的 YARN 框架允许工作负载在各种处理框架之间动态共享群集资源，这些框架包括

0 码力 | 17 页 | 583.90 KB | 1 年前
3
MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

Datastore ▪ ImageDatastore 6 tall arrays ▪ tall array – 一种新的数据类型，专门用于处理大数据. – 用于处理数据规模超过单个机器或群集的内存承载能力的数据集合 ▪ 使用方式等同于MATLAB 数组(array) – 支持数据类型包括数值型、字符串、时间类型、表等… – 支持众多基本的数学函数、统计函数、索引函数等. – 支持机器学习算法包括分类、聚类和回归

0 码力 | 17 页 | 1.64 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（生产调优手册）

RAM_DISK：（内存镜像文件系统） SSD：（SSD固态硬盘） DISK：（普通磁盘，在HDFS中，如果没有主动声明数据目录存储类型默认都是DISK） ARCHIVE：（没有特指哪种存储介质，主要的指的是计算能力比较弱而存储密度比较高的存储介质，用来解决数据量的容量扩增的问题，一般用于归档） 1）关于存储类型 2）关于存储策略策略ID 策略名称副本分布 15 Lazy_Persist RAM_DISK:1，DISK:n-1

0 码力 | 41 页 | 2.32 MB | 1 年前
3

共 7 条前往

页

Hadoop 迁移阿里 MaxCompute 技术方案开发指南大数时代 Intel 集成 IBM 概述 MATLAB Spark 实现数据处理价值硅谷生产调优手册

分类

语言

格式

Hadoop 迁移到阿里云MaxCompute 技术方案

Hadoop开发指南

大数据时代的Intel之Hadoop

大数据集成与Hadoop - IBM

Hadoop 概述

MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

尚硅谷大数据技术之Hadoop（生产调优手册）