作业 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

1.3.3 基于Go构建海量作业作业平台

GO CN 基于Go构建海量作业作业平台袁帅 villager bilibili/基础架构部/SRE/平台工程组/资深开发工程师作业平台简介 01 作业平台的挑战 02 B站作业平台Job的介绍 03 Job设计实现：Agent/Worker 作业执行和上报 04 Job设计实现：Scheduler 作业调度 05 Job设计实现：ApiServer 鉴权+数据处理 06 Job设计实现：其他技术难点和细节总结展望 07 第一部分作业平台简介日常的运维管理无时无刻的不在执行，不管是执行软件安装、还是配置和启动服务，甚至是一个长时间的停机维护，将这些操作抽象来表达统称为作业。运维作业的重要性在于它可以帮助运维/SRE团队更好的管理和维护系统，确保系统的稳定性和可靠性。通过自动化运维作业，可以减少人工干预，降低出错率，提高工作效率和质量 ’ alt=‘OCR图片’/> 作业平台的需求来源 SALTSTACK 管理 ’ alt=‘OCR图片’/> 作业平台主要对象作业平台主要对象命令：一个可以独立操作，如：关机，重启等文件分发/下载：将指定的文件分发到目标机路径；将目标机路径的文件下载到本地作业：一系列命令、文件分发/下载的有序组合，它还包含执行对象定时作业：定时执行的作业 ’ alt=‘OCR图片’/> 第二部分作业平台挑战系统集成：作业平台需要集成多个系统和工具，这些系统可能来自不同的操作系统或供应商

0 码力 | 34 页 | 4.48 MB | 3 月前
3
Apache ShardingSphere ElasticJob 中文文档 2023 年 11 月 01 日

Java …… 4 3.2 Maven …… 4 3.3 ZooKeeper …… 4 4 快速入门 4.1 引入 Maven 依赖 …… 5 4.2 作业开发 …… 5 4.3 作业配置 …… 6 4.4 作业调度 …… 6 5 概念 & 功能 5.1 调度模型 …… 7 5.2 弹性调度 …… 7 5.2.1 分片 …… 7 分片项 …… 8 ..... 19 5.4.2 适用场景 ..... 20 5.5 作业开放生态 ..... 20 5.5.1 作业接口 ..... 20 5.5.2 执行器接口 ..... 21 用户手册 ..... 22 6.1 使用手册 ..... 23 6.1.1 作业 API ..... 23 作业开发 ..... 23 使用 Java API ..... 26 使用使用 Spring Boot Starter ..... 34 使用 Spring 命名空间 ..... 39 6.1.2 作业监听器 ..... 43 监听器开发 ..... 43 使用 Java API ..... 44 使用 Spring 命名空间 ..... 45 6.1.3 事件追踪 ..... 46 使用 Java API ..... 46 使用 Spring

0 码力 | 98 页 | 1.97 MB | 2 年前
3
唯品会调度系统的前世今生

5 无法合理利用机器资源缺乏分布式处理 ## 选型对比 Linux系统级的定时任务执行器缺乏分布式运算和集中管理功能无法做到高可用阿里早期开源的分布式任务调度系统，代码略陈旧作业类型较单一，只能是获取/处理数据一种模式 Crontab TBSchedule 没有容器化选型？ Java事实任务标准关注点在定时任务而非数据，缺少分布式并行调度的功能 Elatic-Job Elatic-Job 当当开源的分布式任务调度系统代码较新，使用Quartz进行调度。提供高可用和分布式功能功能单一，只支持Java，不支持 Shell(PHP)和消息驱动的作业调度对任务超时、任务执行情况、监控逻辑支持粒度功能较单一或缺乏 ## 调度产品的定位简易开发、简单维护高可用、分片并发处理、资源调度动态平衡支持Java、Shell以及本地模式(VIP还支持消息模式) 唯品会弹性调度系统的架构与功能窥探 ## 领域模型作业分片创建调度器 Binding 域应用包执行节点物理机 ## 作业状态变迁启用 Ready 触发（手工, 时间或消息）停⽤执行完成 Stopped Running 执行完成 Stopping 停⽤ ## 架构体系作业调度控制台UI 作业调度器统一认证作业控制结点监听 ZK 日志查询

0 码力 | 58 页 | 5.40 MB | 2 年前
3
百度智能云 Apache Doris 文档

'err': 'some other error'} label 为用户指定的 label 或自动生成的 label。Label 是该 Insert Into 导入作业的标识。每个导入作业，都有一个在单 database 内部唯一的 Label。 status 表示导入数据是否可见。如果可见，显示 visible，如果不可见，显示 committed。 txnld 为这个 warnings on "url"; 可以查看到具体错误行。 ### 2. 超时时间 INSERT 操作的超时时间由会话变量 query_timeout 控制。默认为5分钟。超时则作业会被取消。 ### 3. Label 和原子性 INSERT 操作同样能够保证导入的原子性，可以参阅导入事务和原子性文档。当需要使用 CTE(Common Table Expressions) [load_properties] [job_properties] FROM data_source [data_source_properties] ### • [db.]job_name 导入作业的名称，在同一个 database 内，相同名称只能有一个 job 在运行。 • tbl name 指定需要导入的表的名称。 • merge_type 数据合并类型。默认为 APPEND，表

0 码力 | 203 页 | 1.75 MB | 2 年前
3
VMware Data Recovery 管理员指南

安装备份设备 10 向备份设备中添加硬盘 10 3 配置 VMware Data Recovery 13 启动备份设备 13 配置备份设备 14 使用入门向导 14 创建备份作业 15 还原虚拟机 16 VMware Data Recovery 故障排除 18 索引 21 ## 关于本文档《VMware Data Recovery 管理员指南》包含为中小型企业建立备份解决方案的信息。支持服务项目如何帮助您满足业务需求，请访问 http://www.vmware.com/support/services。 VMware 专业服务 VMware 教育服务课程提供了大量实践操作环境、案例研究示例，以及用作作业参考工具的课程材料。这些课程可以通过现场指导、教室授课的方式学习，也可以通过在线直播的方式学习。关于现场试点项目及实施的最佳实践，VMware 咨询服务可提供多种服务，协助您评估、计划、构建和管理虚删除重复以删除冗余数据。 Data Recovery 建立在用于数据保护的 VMware vStorage API 基础上，并与 VMware vCenter Server 集成，使您可以实现备份作业的集中调度。通过与 vCenter Server 集成，还可以备份虚拟机，即使使用 VMware VMotion $ ^{™} $ 或 VMware Distributed Resource Scheduler

0 码力 | 22 页 | 663.62 KB | 2 年前
3
OpenShift Container Platform 4.6 节点

are the property of their respective owners. ## 摘要本文提供有关在集群中配置和管理节点、Pod和容器的说明。它还提供有关配置Pod调度和放置、使用作业（job）和 DaemonSet来自动执行操作，以及确保集群保持高效性的其他任务信息。 ## 目录第1章节点概述 ..... 9 1.1. 关于节点 ..... 9 读取操作 .... 第 4 章使用作业和 DAEMONSET 209 4.1. 使用 DAEMONSET 在节点上自动运行后台任务 209 4.1.1. 通过默认调度程序调度 209 4.1.2. 创建 daemonset 210 4.2. 使用任务在 POD 中运行任务 213 4.2.1. 了解作业和 cron 作业 214 4.2.1.1. 了解如何创建作业 216 4.2.1 1.2. 了解如何为作业设置最长持续时间 217 4.2.1.3. 了解如何为 pod 失败设置作业避退策略 217 4.2.1.4. 了解如何配置 Cron Job 以移除工件 217 4.2.1.5. 已知限制 218 4.2.2. 创建作业 218 4.2.3. 创建 cron job 220 第 5 章操作节点 223 5.1. 查看和列出 OPENSHIFT

0 码力 | 404 页 | 3.60 MB | 2 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

.. 18 4.2.1 迁移评估分析 ..... 18 4.2.2 数据迁移自动化 ..... 18 4.2.3 分析任务兼容性分析及转换 ..... 19 4.2.4 数据集成及工作流作业迁移.....19 5 迁移整体方案及流程.....19 5.1 阶段 1：调研评估&迁移方案.....20 5.2 阶段 2：试点/全面业务迁移.....20 6.3.3 数据、作业和 Pipeline 迁移评估.....28 6.4 Meta 和数据迁移.....30 6.4.1 环境准备.....30 6.4.2 方案 A：通过 MMA Agent 迁移 Meta 和数据.....32 6.4.3 方案 B：使用 Dataworks 服务迁移 Meta 和数据.....37 6.5 作业迁移.....42 42 6.5.1 Hive SQL -> MaxCompute SQL 自动转换.....42 6.5.2 UDF、MR 迁移.....43 6.5.3 Spark 作业迁移.....43 6.6 外表迁移.....44 6.7 Pipeline 迁移.....44 7 经典用例.....44 7.1 基本功能.....44 7.1.1 准备工具和环境.....44

0 码力 | 59 页 | 4.33 MB | 2 年前
3
OpenShift Container Platform 4.9 节点

are the property of their respective owners. ## 摘要本文提供有关在集群中配置和管理节点、Pod和容器的说明。它还提供有关配置Pod调度和放置、使用作业（job）和 DaemonSet来自动执行操作，以及确保集群保持高效性的其他任务信息。 ## 目录第1章节点概述 ..... 9 1.1. 关于节点 ..... 9 读取操作 .... 第 4 章使用作业和 DAEMONSET 156 4.1. 使用 DAEMONSET 在节点上自动运行后台任务 156 4.1.1. 通过默认调度程序调度 156 4.1.2. 创建 daemonset 156 4.2. 使用任务在 POD 中运行任务 159 4.2.1. 了解作业和 cron 作业 160 4.2.1.1. 了解如何创建作业 161 4.2.1 1.2. 了解如何为作业设置最长持续时间 161 4.2.1.3. 了解如何为 pod 失败设置作业避退策略 161 4.2.1.4. 了解如何配置 Cron Job 以移除工件 161 4.2.1.5. 已知限制 162 4.2.2. 创建作业 162 4.2.3. 创建 cron job 163 第 5 章操作节点 166 5.1. 查看和列出 OPENSHIFT

0 码力 | 374 页 | 3.80 MB | 2 年前
3
TensorFlow on Yarn：深度学习遇上大数据

训练数据手动分发，训练模型手动保存 • 进程遗留问题，需要手动杀死 • 缺乏作业统一管理，不便对作业运行状态跟踪 • 日志查看不方便 ## TensorFlow使用现状及痛点 ## Yarn能解决什么问题: - 集群资源的管理（目前支持CPU、内存，需要扩展GPU资源管理） • 作业的统一管理、状态跟踪 • 资源组（Schedule Pool）的划分 • 作业进程的资源隔离 ## TensorFlow on Yarn设计训练数据和训练模型基于HDFS统一存储 • 作业训练结束自动回收work、ps和Tensorboard进程 • 训练效果和性能没有损失 ## TensorFlow on Yarn设计 ## 扩展目标: - 支持GPU亲和性调度（提高通信效率） • Web的方式查看作业的运行状况和作业日志 • 在线查看Tensorboard • HistoryServer 支持查看结束作业的日志和状态信息 - 控制已控制已有的TensorFlow作业的迁移成本（最多改三行代码） ## TensorFlow on Yarn设计 ## 提交脚本示例（分布式版本）： tensorflow-submit \ --app-name "tfdemo" \ #作业名 --files tfTestDemo.py,dataDeal.py \ #依赖的本地文件 --tfcmd "python tfTestDemo

0 码力 | 32 页 | 4.06 MB | 2 年前
3
高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏

Entertainment Group，简称IEG）自用的一套用于构建企业研发运营一体化体系的PaaS开发框架，提供了aPaaS（DevOps流水线、运行环境托管、前后台框架）和iPaaS（持续集成、CMDB、作业平台、容器管理、数据平台、AI等原子平台）等模块，帮助企业技术人员快速构建基础运营PaaS。腾讯蓝鲸智云秉承开放共赢的理念，以改变中国运维行业为起点，致力于推动国内企业借助研发运营一体化，低成本实现企业IT经营管理模式升级和自主化。初始化数据 ![Image](/uploads/documents/1/4/c/9/14c9c242947cebb88af7638445efa142/p5_2.jpg) J 蓝鲸配置平台蓝鲸作业平台故障替换业务配置文件修改大区服务重启清理脏数据测试验证布署监控拉起业务进程对外开放故障机回收选择发布范围备份业务程序&数据屏蔽监控告警配置平台作业平台容器管理 DB管理 <1> ## 什么叫 PaaS 故障机替换新版本发布基础监控系统扩容管理系统 aPaaS（集成平台）：开发框架（前后端）+工具流水线+运行环境托管 iPaaS : API Gateway（统一接入）服务组件A 服务组件B 服务组件C 服务组件D ↓ ↓ ↓ ↓ 管控接入配置平台作业平台容器平台

0 码力 | 26 页 | 8.25 MB | 2 年前
3

共 292 条前往

页

分类

语言

格式

1.3.3 基于Go构建海量作业作业平台

Apache ShardingSphere ElasticJob 中文文档 2023 年 11 月 01 日

唯品会调度系统的前世今生

百度智能云 Apache Doris 文档

VMware Data Recovery 管理员指南

OpenShift Container Platform 4.6 节点

Hadoop 迁移到阿里云MaxCompute 技术方案

OpenShift Container Platform 4.9 节点

TensorFlow on Yarn：深度学习遇上大数据

高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏

搜索

分类

语言

格式