YARN - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Kubernetes & YARN: a hybrid container cloud

## Kubernetes & YARN: a hybrid container cloud Jian He & Bushuang Gao ## About us • Jian He • Staff Engineer @Alibaba cluster management team • Staff Engineer @Hortonworks • Hadoop Committer @Alibaba ## Agenda • What/Why co-location • Co-location @ Alibaba • Kubernetes vs YARN • Kubernetes & YARN: a hybrid architecture • Resource Isolation • Future ## What/Why co-location ## Data @Alibaba ## Co-location @Alibaba Retail search adds spark MR flink Sigma Fuxi Node Kubernetes YARN ## Co-located vs separated cluster CPU utilization Co-located: 40% ![Image](/uploads/documents/

0 码力 | 42 页 | 25.48 MB | 2 年前
3
TensorFlow on Yarn：深度学习遇上大数据

## 深度学习 + 大数据 TensorFlow on Yarn ## 李远策 2017年4月17日 ![Image](/uploads/documents/3/c/8/6/3c8605215c91326185ac873f441c0df8/p1_1.jpg) ![Image](/uploads/documents/3/c/8/6/3c8605215c91326185ac873f441c0df8/p1_2 2.jpg) ## 内容大纲 ➢ TensorFlow使用现状及痛点 ➢ TensorFlow on Yarn设计 ➢ TensorFlow on Yarn技术细节揭秘 ➢ 深度学习平台演进及SparkFlow介绍 ## 背景坐标：360-系统部-大数据团队专业：Yarn、Spark、MR、HDFS … 挑战：深度学习空前火爆，各种深度学习框架层出不穷，业务部门拥抱新兴技术。平台怎么应对？缺乏作业统一管理，不便对作业运行状态跟踪 • 日志查看不方便 ## TensorFlow使用现状及痛点 ## Yarn能解决什么问题: - 集群资源的管理（目前支持CPU、内存，需要扩展GPU资源管理） • 作业的统一管理、状态跟踪 • 资源组（Schedule Pool）的划分 • 作业进程的资源隔离 ## TensorFlow on Yarn设计 ## 基本目标: - 同时支持单机和分布式TensorFlow程序

0 码力 | 32 页 | 4.06 MB | 2 年前
3
Hadoop 概述

# Hadoop 概述 ## 本章内容提要 • Hadoop 的组件 • HDFS、MapReduce、YARN、ZooKeeper 和 Hive 的角色 ● Hadoop 与其他系统的集成 ● 数据集成与 Hadoop Hadoop 是一种用于管理大数据的基本工具。这种工具满足了企业在大型数据库(在 Hadoop 中亦称为数据湖)管理方面日益增长的需求。当涉及数据时，企业中最大的需求的核心，然而它并不会威胁到你的预算。如果要分析一组数据，你可以使用 MapReduce 中包含的编程逻辑，它提供了在 Hadoop 群集上横跨多台服务器的可扩展性。为实现资源管理，可考虑将 Hadoop YARN 加入到软件栈中，它是面向大数据应用程序的分布式操作系统。 ZooKeeper 是另一个 Hadoop Stack 组件，它能通过共享层次名称空间的数据寄存器(称为 znode)，使得分布式进程相互协调工作。每个 Hadoop 最近的发展中，另有一款称为 YARN 的组件已经可用于进一步管理 Hadoop 生态系统。 #### 1.1.4 YARN 是什么 YARN 基础设施(另一个资源协调器)是一项用于提供执行应用程序所需的计算资源(内存、CPU 等)的框架。 YARN 有什么诱人的特点或是性质？其中两个重要的部分是资源管理器和节点管理器。让我们来勾勒 YARN 的框架。首先考虑一个两层的群集，其中资

0 码力 | 17 页 | 583.90 KB | 2 年前
3
Hadoop 3.0以及未来

b9850874ac9a0437b1b050eae497a4e6/p3_1.jpg) ## 概要 • Hadoop的历史 • Hadoop 3介绍 ■ Common ■ HDFS ■ YARN ■ MapReduce • Hadoop的未来发展方向 ## Hadoop的历史 ![Image](/uploads/documents/b/9/8/5/b9850874ac9a0437b 计算引擎MapReduce 计算引擎Spark NoSQL HBase Kafka 资源 / 任务调度 YARN 文件存储层 HDFS ## Hadoop 3介绍 • Common JDK 8+ 升级 ■ Classpath隔离 ☑ Shell脚本的重构 • HDFS • YARN • MapReduce ## Classpath隔离 • HADOOP-11656, HDFS-6200 3介绍 • Common • HDFS ■ 纠错码(Erasure Coding) ■ 多个Standby Namenode Datanode内部balance工具云计算平台的支持 • YARN • MapReduce ## HDFS纠错码(Erasure Coding) ## • 一个简单的例子 |X|Y|X ⊕ Y| |---|---|---| |0|0|0| |0|1|1|

0 码力 | 33 页 | 841.56 KB | 2 年前
3
PyFlink 1.15 Documentation

.. 3 1.1.1.1 Preparation ..... 3 1.1.1.2 Local ..... 6 1.1.1.3 Standalone ..... 7 1.1.1.4 YARN ..... 8 1.1.1.5 Kubernetes ..... 11 1.1.2 QuickStart ..... 12 1.1.2.1 QuickStart: Table API ##### 1.1.1.4 YARN Apache Hadoop YARN is a cluster resource management framework for managing the resources and scheduling jobs in a Hadoop cluster. It’s supported to submit PyFlink jobs to YARN for execution environment It requires Python 3.6 or above with PyFlink pre-installed to be available on the nodes of the YARN cluster. It’s suggested to use Python virtual environments to set up the Python environment. See Create

0 码力 | 36 页 | 266.77 KB | 2 年前
3
1.6 resource scheduling & container technology for financial service_yujun

是否已经存在相关问题域的解？ ☐ 他们是是否解决了我们的问题？ ☐ 我们的研究和探索 # 求解之路的探索 ☐ 是否已经存在类似的解？ ☑ 传统: HPC中的PBS 和 Condor ■ 现代: Hadoop YARN, Apache Mesos, Google Kubernetes ## 求解之路的探索他们是否解决了我们的问题？ No ## the Cattle Farm and the Zoo ## \}$ else return ▷ the cluster is full end if ① Mesos 采用了DRF(Dominant Resource Fairness) 调度机制。YARN自带FIFO、Capacity Scheduler和Fair Scheduler(借鉴了Mesos的DRF)。 ② Mesos中的DRF调度算法过分的追求公平，没有考虑到实际的应用需求。在实际生于操作系统中的内存碎片问题。 ④ YARN适合Long running job和数据分析类资源的调度，对于数据库类等短运行时场景资源调度效果较差 ⑤ YARN采用了增量资源分配机制（当应用程序申请的资源暂时无法保证时，为应用程序预留一个节点上的资源直到累计释放的空闲资源满足应用程序需求），这种机制会造成浪费，但不会出现饿死现象 ⑥ Mesos 和 YARN 的调度器的扩展和定制在开发上都比较繁琐。

0 码力 | 21 页 | 27.20 MB | 2 年前
3
银河麒麟服务器操作系统V4 Hadoop 软件适配手册

1.5 MAPREDUCE 介绍 ..... 3 1.6 YARN 介绍 ..... 4 2 HADOOP 软件适配 ..... 4 2.1 解压 HADOOP 软件 ..... 4 2.2 配置文件修改 ..... 4 2.2.1 配置 HADOOP-ENV.SH ..... 4 2.2.2 配置 YARN-ENV.SH ..... 5 2.2.3 配置 CORE-SITE CORE-SITE.XML ..... 5 2.2.4 配置 HDFS-SIZE.XML ..... 5 2.2.5 配置 MAPRED-SITE.XML ..... 6 2.2.6 配置 YARN-SITE.XML ..... 6 2.2.7 配置 SLAVES ..... 7 3 格式化并启动集群 ..... 7 3.1 格式化 NAMENODE ..... 7 3.2 启动分配到集群中哪个位置（如果可能，通常是这个 task 所要处理的数据所在的位置，这样可以最小化网络开销）。Hadoop 会监控每一个 task 确保其成功完成，并重启一些失败的 task。 ### 1.6 YARN 介绍 YARN 是 Hadoop 2.0 中的资源管理系统，它的基本设计思想是将 MRV1 中的 JobTracker 拆分成了两个独立的服务：一个全局的资源管理器 ResourceManager 和每个应用程序特有的

0 码力 | 8 页 | 313.35 KB | 2 年前
3
Apache Kyuubi 1.8.0 Documentation

schedule distributed tasks at runtime. They can process data on single-node machines or clusters, such as YARN and Kubernetes. Besides, the Kyuubi server also supports running on bare metal or in a docker. ### |Ha| |Kinit| |Kubernetes| |Lineage| |Metadata| |Metrics| |Operation| |Server| |Session| |Spnego| |Yarn| |Zookeeper| #### 3.2.3 Spark Configurations ### V ia spark-defaults.conf Setting them in $SPAR spark.master=local spark.sql.adaptive.enabled=true # For a user named kent ___kent___.spark.master=yarn ___kent___.spark.sql.adaptive.enabled=false # For a user named bob ___bob___.spark.master=spark://master:7077

0 码力 | 220 页 | 3.82 MB | 2 年前
3
Apache Kyuubi 1.8.0-rc1 Documentation

schedule distributed tasks at runtime. They can process data on single-node machines or clusters, such as YARN and Kubernetes. Besides, the Kyuubi server also supports running on bare metal or in a docker. ### |Ha| |Kinit| |Kubernetes| |Lineage| |Metadata| |Metrics| |Operation| |Server| |Session| |Spnego| |Yarn| |Zookeeper| #### 3.2.3 Spark Configurations ### V ia spark-defaults.conf Setting them in $SPAR spark.master=local spark.sql.adaptive.enabled=true # For a user named kent ___kent___.spark.master=yarn ___kent___.spark.sql.adaptive.enabled=false # For a user named bob ___bob___.spark.master=spark://master:7077

0 码力 | 220 页 | 3.82 MB | 2 年前
3
Apache Kyuubi 1.6.0 Documentation

oop-yarn/hadoop-yarn- site/FairScheduler.html#Queue_Access_Control_Lists], from cluster managers, e.g. Apache Hadoop YARN [https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html] ## Run Anywhere Kyuubi can submit Spark applications to all supported cluster managers, including YARN, Mesos, Kubernetes, Standalone, and local. The SPA policy also makes it possible for you to launch you can run Spark/Flink/Trino SQL engines created by the Kyuubi on any cluster manager, including YARN, Kubernetes, Mesos, e.t.c... Or, you can manipulate data from different data sources with the Spark

0 码力 | 391 页 | 5.41 MB | 2 年前
3

共 336 条前往

页

分类

语言

格式

Kubernetes & YARN: a hybrid container cloud

TensorFlow on Yarn：深度学习遇上大数据

Hadoop 概述

Hadoop 3.0以及未来

PyFlink 1.15 Documentation

1.6 resource scheduling & container technology for financial service_yujun

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

Apache Kyuubi 1.8.0 Documentation

Apache Kyuubi 1.8.0-rc1 Documentation

Apache Kyuubi 1.6.0 Documentation

搜索

分类

语言

格式