尚硅谷大数据技术之Hadoop(入门)
Streaming 实时计算 Spark Sql 数据查询 Oozie任务调度 Azkaban任务调度 业务模型、数据可视化、业务应用 Z o o k e e p e r 数 据 平 台 配 置 和 调 度 数据来源层 数据传输层 数据存储层 资源管理层 数据计算层 任务调度层 业务模型层 Storm实时计算 Flink 图中涉及的技术名词解释如下: 1)Sqoop:Sqoop 实时计算 Spark Sql 数据查询 Oozie任务调度 Azkaban任务调度 Z o o k e e p e r 数 据 平 台 配 置 和 调 度 数据来源层 数据传输层 数据存储层 资源管理层 数据计算层 任务调度层 Storm实时计算 Ss购买海狗人参丸 Nginx Tomcat 收集访 问日志 Tomcat 收集访 问日志 Tomcat 推荐业务 分析结果数据库0 码力 | 35 页 | 1.70 MB | 1 年前3Hadoop 概述
Google 这样的商业公司可使用 Hadoop 来操作、管理其数 据存储并从中产生出有意义的结果。通常用于商业分析的传统工具 并不旨在处理或分析超大规模数据集,但 Hadoop 是一个适用于这 些商业模型的解决方案。 1.1.1 Hadoop 的组件 Hadoop Common 是 Hadoop 的基础,因为它包含主要服务和基 本进程,例如对底层操作系统及其文件系统的抽象。Hadoop 执行应用 程序所需的计算资源(内存、CPU 等)的框架。 YARN 有什么诱人的特点或是性质?其中两个重要的部分是资 源管理器和节点管理器。让我们来勾勒 YARN 的框架。首先考虑一 个两层的群集,其中资源管理器在顶层(每个群集中只有一个)。资 Hadoop 大数据解决方案 6 源管理器是主节点。它了解从节点所在的位置(较底层)以及它们拥 有多少资源。它运行了多种服务,其中最重要的是用于决定如何分0 码力 | 17 页 | 583.90 KB | 1 年前3通过Oracle 并行处理集成 Hadoop 数据
Oracle 表中,之后才能在 SQL 查询中访问这些数据的过程。 甲骨文(中国)软件系统有限公司 北京远洋光华中心办公室 地址:北京市朝阳区景华南街5号远洋光华中心C座21层 邮编:100020 电话:(86.10) 6535-6688 传真:(86.10) 6515-1015 北京上地6号办公室 地址:北京市海淀区上地信息产业基地,上地西路8号,上地六号大厦D座702室 室 邮编:100085 电话:(86.10) 8278-7300 传真:(86.10) 8278-7373 上海分公司 地址:上海市黄浦区天津路155号名人商业大厦12层 邮编:200021 电话:(86.21) 2302-3000 传真:(86.21) 6340-6055 广州分公司 地址:广州市天河区珠江新城华夏路8号合景国际金融广场18楼 邮编:510623 电话:(86.20) 8513-2000 传真:(86.20) 8513-2380 成都分公司(川信大厦办公室) 地址:成都市人民南路二段18号四川川信大厦20层A&D座 邮编:610016 电话:(86.28) 8619-7200 传真:(86.28) 8619-9573 成都分公司(高新国际广场办公室) 地址:成都市高新区天韵0 码力 | 21 页 | 1.03 MB | 1 年前3Spark 简介以及与 Hadoop 的对比
map, join etc.)行为。当这个 RDD 的部分分区数据丢失时,它可以通过 Lineage 获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型,限制了 Spark 的运用场合,但同时相比细颗粒度的数据模型,也带来了性能的提升。 RDD 在 Lineage 依赖方面分为两种 Narrow Dependencies 与 Wide Dependencies 用 来解决数据容错的高效性。Narrow 各个处理节点 之间的通信模型不再像 Hadoop 那样就是唯一的 Data Shuffle 一种模式。用户可以命名, 物化,控制中间结果的存储、分区等。可以说编程模型比 Hadoop 更灵活。 3. 由于 RDD 的特性,Spark 不适用那种异步细粒度更新状态的应用,例如 web 服务的存 储或者是增量的 web 爬虫和索引。就是对于那种增量修改的应用模型不适合。 2.3 容错性0 码力 | 3 页 | 172.14 KB | 1 年前3MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖
Negotiator) – 资源调度模型,实现数据跨节点的最小移动 • Map/Reduce – 跨节点分布式计算模型 • HDFS (Hadoop Distributed File System) - 跨节点的分布式文件系统 Hadoop Ecosystem 11 Spark Spark是一个流行的开源集群计算框架 • 并行计算引擎 • 使用广义的计算模型 • 基于内存进行计算(内存计算)0 码力 | 17 页 | 1.64 MB | 1 年前3银河麒麟服务器操作系统V4 Hadoop 软件适配手册
分为多个 block 块,管理 block 块信息,同时周期性的将其所有的 block 块信息发 送给 NameNode。 1.5 MapReduce 介绍 MapReduce 是一种计算模型,该模型可以将大型数据处理任务分解成很多单 个的、可以在服务器集群中并行执行的任务,而这些任务的计算结果可以合并在 一起来计算最终的结果。简而言之,Hadoop Mapreduce 是一个易于编程并且能在0 码力 | 8 页 | 313.35 KB | 1 年前3Hadoop 3.0以及未来
Cloudera创立 Hortonworks创立 Hadoop 1.0发布 Hadoop 2.0 GA Spark成为顶级顷目 Hadoop 3.0 2017 Hadoop生态系统 文件存储层 HDFS 资源/任务调度 YARN 计算引擎MapReduce 计算引擎Spark NoSQL HBase 数据仓 库SQL 机器/深 度学习 Batch 任务 流处理 搜索 … Kafka0 码力 | 33 页 | 841.56 KB | 1 年前3Hadoop 迁移到阿里云MaxCompute 技术方案
MaxCompute 内建支持的上百种机器学习算法,目前 MaxCompute 的机器学习能力由 PAI 产品进行统一提供 服务,同时 PAI 提供了深度学习框架、Notebook 开发 环境、GPU 计算资源、模型在线部署的弹性预测服务。 MaxCompute 的数据对 PAI 产品无缝集成。 存储 Pangu 阿里自研分布式存储服务,类似 HDFS。MaxCompute 对外目前只暴露表接口,不能直接访问文件系统。0 码力 | 59 页 | 4.33 MB | 1 年前3
共 8 条
- 1