1.3.3 基于Go构建海量作业作业平台GO CN 基于Go构建海量作业作业平台 袁帅 villager bilibili/基础架构部/SRE/平台工程组/资深开发工程师 作业平台简介 01 作业平台的挑战 02 B站作业平台Job的介绍 03 Job设计实现:Agent/Worker 作业执行和上报 04 Job设计实现:Scheduler 作业调度 05 Job设计实现:ApiServer 鉴权+数据处理 06 Job设计实现:其他技术难点和细节 总结展望 07 第一部分 作业平台简介 日常的运维管理无时无刻的不在执行,不管是执行软件安装、还是配置和启动服务,甚至是一个长时间的停机维护,将这些操作抽象来表达统称为作业。 运维作业的重要性在于它可以帮助运维/SRE团队更好的管理和维护系统,确保系统的稳定性和可靠性。通过自动化运维作业,可以减少人工干预,降低出错率,提高工作效率和质量 ’ alt=‘OCR图片’/> 作业平台的需求来源 SALTSTACK 管理 ’ alt=‘OCR图片’/> 作业平台主要对象 作业平台主要对象 命令:一个可以独立操作,如:关机,重启等 文件分发/下载:将指定的文件分发到目标机路径;将目标机路径的文件下载到本地 作业:一系列命令、文件分发/下载的有序组合,它还包含执行对象 定时作业:定时执行的作业 ’ alt=‘OCR图片’/> 第二部分 作业平台挑战 系统集成:作业平台需要集成多个系统和工具,这些系统可能来自不同的操作系统或供应商0 码力 | 34 页 | 4.48 MB | 1 月前3
监控Apache Flink应用程序(入门)com/blog/monitoring-apache-flink-applications-101 这篇博文介绍了Apache Flink内置的监控和度量系统,通过该系统,开发人员可以有效地监控他们的Flink作业。通常,对于一个刚刚开始使用Apache Flink进行流处理的DevOps团队来说,选择对应的指标来监控Flink应用程序是非常艰巨的。在与许多大规模部署过Apache Flink的组织合作之后, 一个完整的认识和概述。 ## 1 Flink指标体系 Flink作业监控的基础是它的度量系统,该系统由两个部分组成: Metrics和MetricsReporters。 ### 1.1 Metrics Flink提供了一套全面的内置Metrics: - JVM堆/非堆/直接内存的使用情况(任务粒度) • 作业重启次数(作业粒度) 每秒处理的数据量(操作符粒度) · ..... 作为 e Flink应用程序的最重要的指标。 ## 2 健康状况 ## 3 监控 您要监控的第一件事就是您的作业是否实际处于运行状态。此外,还可以监控重启的次数以及自上次重启之后的时间。 通常来说,成功的检查点是应用程序总体健康状况的一个强大指示器。对于每个检查点,检查点屏障需要流经Flink作业的整个拓扑结构,并且事件和屏障不能相互超越。因此,一个成功的检查点显示没有通道是完全拥挤的。 ### 30 码力 | 23 页 | 148.62 KB | 2 年前3
Apache ShardingSphere ElasticJob 中文文档 2023 年 11 月 01 日Java …… 4 3.2 Maven …… 4 3.3 ZooKeeper …… 4 4 快速入门 4.1 引入 Maven 依赖 …… 5 4.2 作业开发 …… 5 4.3 作业配置 …… 6 4.4 作业调度 …… 6 5 概念 & 功能 5.1 调度模型 …… 7 5.2 弹性调度 …… 7 5.2.1 分片 …… 7 分片项 …… 8 ..... 19 5.4.2 适用场景 ..... 20 5.5 作业开放生态 ..... 20 5.5.1 作业接口 ..... 20 5.5.2 执行器接口 ..... 21 用户手册 ..... 22 6.1 使用手册 ..... 23 6.1.1 作业 API ..... 23 作业开发 ..... 23 使用 Java API ..... 26 使用 使用 Spring Boot Starter ..... 34 使用 Spring 命名空间 ..... 39 6.1.2 作业监听器 ..... 43 监听器开发 ..... 43 使用 Java API ..... 44 使用 Spring 命名空间 ..... 45 6.1.3 事件追踪 ..... 46 使用 Java API ..... 46 使用 Spring0 码力 | 98 页 | 1.97 MB | 2 年前3
唯品会调度系统的前世今生5 无法合理利用机器资源 缺乏分布式处理 ## 选型对比 Linux系统级的定时任务执行器 缺乏分布式运算和集中管理功能 无法做到高可用 阿里早期开源的分布式任务调度系统,代码略陈旧 作业类型较单一,只能是获取/处理数据一种模式 Crontab TBSchedule 没有容器化选型? Java事实任务标准 关注点在定时任务而非数据, 缺少分布式并行调度的功能 Elatic-Job Elatic-Job 当当开源的分布式任务调度系统 代码较新,使用Quartz进行调度。提供 高可用和分布式功能 功能单一,只支持Java,不支持 Shell(PHP)和消息驱动的作业调度 对任务超时、任务执行情况、监控逻辑 支持粒度功能较单一或缺乏 ## 调度产品的定位 简易开发、简单维护 高可用、分片并发处理、资源调度动态平衡 支持Java、Shell以及本地模式(VIP还支持消息模式) 唯品会弹性调度系统的架构与功能窥探 ## 领域模型 作业 分片 创建 调度器 Binding 域 应用包 执行节点 物理机 ## 作业状态变迁 启用 Ready 触发(手工, 时间或消息) 停⽤ 执行完成 Stopped Running 执行完成 Stopping 停⽤ ## 架构体系 作业调度 控制台UI 作业调度器 统一认证 作业控制 结点监听 ZK 日志查询0 码力 | 58 页 | 5.40 MB | 2 年前3
百度智能云 Apache Doris 文档'err': 'some other error'} label 为用户指定的 label 或自动生成的 label。Label 是该 Insert Into 导入作业的标识。每个导入作业,都有一个在单 database 内部唯一的 Label。 status 表示导入数据是否可见。如果可见,显示 visible,如果不可见,显示 committed。 txnld 为这个 warnings on "url"; 可以查看到具体错误行。 ### 2. 超时时间 INSERT 操作的超时时间由会话变量 query_timeout 控制。默认为5分钟。超时则作业会被取消。 ### 3. Label 和原子性 INSERT 操作同样能够保证导入的原子性,可以参阅 导入事务和原子性 文档。 当需要使用 CTE(Common Table Expressions) [load_properties] [job_properties] FROM data_source [data_source_properties] ### • [db.]job_name 导入作业的名称,在同一个 database 内,相同名称只能有一个 job 在运行。 • tbl name 指定需要导入的表的名称。 • merge_type 数据合并类型。默认为 APPEND,表0 码力 | 203 页 | 1.75 MB | 2 年前3
VMware Data Recovery 管理员指南安装备份设备 10 向备份设备中添加硬盘 10 3 配置 VMware Data Recovery 13 启动备份设备 13 配置备份设备 14 使用入门向导 14 创建备份作业 15 还原虚拟机 16 VMware Data Recovery 故障排除 18 索引 21 ## 关于本文档 《VMware Data Recovery 管理员指南》包含为中小型企业建立备份解决方案的信息。 支持服务项目如何帮助您满足业务需求,请访问 http://www.vmware.com/support/services。 VMware 专业服务 VMware 教育服务课程提供了大量实践操作环境、案例研究示例,以及用作作业参考工具的课程材料。这些课程可以通过现场指导、教室授课的方式学习,也可以通过在线直播的方式学习。关于现场试点项目及实施的最佳实践,VMware 咨询服务可提供多种服务,协助您评估、计划、构建和管理虚 删除重复以删除冗余数据。 Data Recovery 建立在用于数据保护的 VMware vStorage API 基础上,并与 VMware vCenter Server 集成,使您可以实现备份作业的集中调度。通过与 vCenter Server 集成,还可以备份虚拟机,即使使用 VMware VMotion $ ^{™} $ 或 VMware Distributed Resource Scheduler0 码力 | 22 页 | 663.62 KB | 2 年前3
OpenShift Container Platform 4.6 节点are the property of their respective owners. ## 摘要 本文提供有关在集群中配置和管理节点、Pod和容器的说明。它还提供有关配置Pod调度和放置、使用作业(job)和 DaemonSet来自动执行操作,以及确保集群保持高效性的其他任务信息。 ## 目录 第1章 节点概述 ..... 9 1.1. 关于节点 ..... 9 读取操作 .... 第 4 章 使用作业和 DAEMONSET 209 4.1. 使用 DAEMONSET 在节点上自动运行后台任务 209 4.1.1. 通过默认调度程序调度 209 4.1.2. 创建 daemonset 210 4.2. 使用任务在 POD 中运行任务 213 4.2.1. 了解作业和 cron 作业 214 4.2.1.1. 了解如何创建作业 216 4.2.1 1.2. 了解如何为作业设置最长持续时间 217 4.2.1.3. 了解如何为 pod 失败设置作业避退策略 217 4.2.1.4. 了解如何配置 Cron Job 以移除工件 217 4.2.1.5. 已知限制 218 4.2.2. 创建作业 218 4.2.3. 创建 cron job 220 第 5 章 操作节点 223 5.1. 查看和列出 OPENSHIFT0 码力 | 404 页 | 3.60 MB | 2 年前3
Hadoop 迁移到阿里云MaxCompute 技术方案.. 18 4.2.1 迁移评估分析 ..... 18 4.2.2 数据迁移自动化 ..... 18 4.2.3 分析任务兼容性分析及转换 ..... 19 4.2.4 数据集成及工作流作业迁移.....19 5 迁移整体方案及流程.....19 5.1 阶段 1:调研评估&迁移方案.....20 5.2 阶段 2:试点/全面业务迁移.....20 6.3.3 数据、作业和 Pipeline 迁移评估.....28 6.4 Meta 和数据迁移.....30 6.4.1 环境准备.....30 6.4.2 方案 A:通过 MMA Agent 迁移 Meta 和数据.....32 6.4.3 方案 B:使用 Dataworks 服务迁移 Meta 和数据.....37 6.5 作业迁移.....42 42 6.5.1 Hive SQL -> MaxCompute SQL 自动转换.....42 6.5.2 UDF、MR 迁移.....43 6.5.3 Spark 作业迁移.....43 6.6 外表迁移.....44 6.7 Pipeline 迁移.....44 7 经典用例.....44 7.1 基本功能.....44 7.1.1 准备工具和环境.....440 码力 | 59 页 | 4.33 MB | 2 年前3
OpenShift Container Platform 4.9 节点are the property of their respective owners. ## 摘要 本文提供有关在集群中配置和管理节点、Pod和容器的说明。它还提供有关配置Pod调度和放置、使用作业(job)和 DaemonSet来自动执行操作,以及确保集群保持高效性的其他任务信息。 ## 目录 第1章 节点概述 ..... 9 1.1. 关于节点 ..... 9 读取操作 .... 第 4 章 使用作业和 DAEMONSET 156 4.1. 使用 DAEMONSET 在节点上自动运行后台任务 156 4.1.1. 通过默认调度程序调度 156 4.1.2. 创建 daemonset 156 4.2. 使用任务在 POD 中运行任务 159 4.2.1. 了解作业和 cron 作业 160 4.2.1.1. 了解如何创建作业 161 4.2.1 1.2. 了解如何为作业设置最长持续时间 161 4.2.1.3. 了解如何为 pod 失败设置作业避退策略 161 4.2.1.4. 了解如何配置 Cron Job 以移除工件 161 4.2.1.5. 已知限制 162 4.2.2. 创建作业 162 4.2.3. 创建 cron job 163 第 5 章 操作节点 166 5.1. 查看和列出 OPENSHIFT0 码力 | 374 页 | 3.80 MB | 2 年前3
TensorFlow on Yarn:深度学习遇上大数据训练数据手动分发,训练模型手动保存 • 进程遗留问题,需要手动杀死 • 缺乏作业统一管理,不便对作业运行状态跟踪 • 日志查看不方便 ## TensorFlow使用现状及痛点 ## Yarn能解决什么问题: - 集群资源的管理(目前支持CPU、内存,需要扩展GPU资源管理) • 作业的统一管理、状态跟踪 • 资源组(Schedule Pool)的划分 • 作业进程的资源隔离 ## TensorFlow on Yarn设计 训练数据和训练模型基于HDFS统一存储 • 作业训练结束自动回收work、ps和Tensorboard进程 • 训练效果和性能没有损失 ## TensorFlow on Yarn设计 ## 扩展目标: - 支持GPU亲和性调度(提高通信效率) • Web的方式查看作业的运行状况和作业日志 • 在线查看Tensorboard • HistoryServer 支持查看结束作业的日志和状态信息 - 控制已 控制已有的TensorFlow作业的迁移成本(最多改三行代码) ## TensorFlow on Yarn设计 ## 提交脚本示例(分布式版本): tensorflow-submit \ --app-name "tfdemo" \ #作业名 --files tfTestDemo.py,dataDeal.py \ #依赖的本地文件 --tfcmd "python tfTestDemo0 码力 | 32 页 | 4.06 MB | 2 年前3
共 305 条
- 1
- 2
- 3
- 4
- 5
- 6
- 31
相关搜索词
作业平台作业AgentSSHKratos监控指标MetricsReportersFlink作业监控系统系统资源ElasticJob分布式任务作业类型错误处理策略扩展机制Saturn调度系统弹性调度任务调度高可用性Routine LoadCREATE TABLEBACKUPREPOSITORYLOADVMware Data Recovery备份vSphere Client虚拟机删除重复存储节点Kubernetes配置更改资源分配调度策略HadoopMaxCompute迁移工具数据迁移云原生OpenShift Container PlatformPod污点与容限TensorFlow on Yarn集成资源管理分布式训练集群调度













