Pod Resource配置 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

GPU Resource Management On JDOS

GPU Resource Management On JDOS 梁永清 liangyongqing1@jd.com 提供的服务 1. 用于实验的 GPU 容器 2.基于 Kubeflow 的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器，不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务

0 码力 | 11 页 | 13.40 MB | 1 年前
3
Kubernetes 异常配置检测框架

顾静, 阿里云邓隽, 阿里云 Kubernetes 异常配置检测框架我们来自阿里云容器服务 • 顾静，研发工程师 • 邓隽，技术专家我们参与打造 • 容器服务（ACK/ASK） • 容器镜像服务（ACR） • 服务网格（ASM） • … 1 Kubernetes 典型异常 2 检测框架演进 3 生产实践 4 总结 Kubernetes 使用日常 • 应用部署 • API Server Pod 异常影响 • 通过 API Server 访问集群概率失败 • 升级集群失败 Load Balancer Service Master API Server Pod Master API Server Pod Master API Server Pod Kubernetes 典型异常网络异常 • 安全组、路由表配置错误 • 节点防火墙软件等修改网络链路长，手动排查成本高异常影响 • 应用间无法正常通信 • 集群内 Controller 无法正常工作 YUM 安装自动运维工具自动安装依赖 firewalld 网络未知原因导致异常 Node Pod eth0 调用 iptables 增加阻断规则 FORWARD_IN_ZONES_SOURCE FORWARD_OUT_ZONES 容器网络不通异常 VS 异常检测？云原生操作系统

0 码力 | 31 页 | 9.57 MB | 1 年前
3
Kubernetes开源书 - 周立

12-Master与Node的通信 13-Node 14-Pod 15-Replica Set 16-Deployment 17-StatefulSet 18-Daemon Set 19-配置最佳实践 20-管理容器的计算资源 21-Kubernetes资源分配 22-将Pod分配到Node 23-容忍与污点 24-Secret 25-Pod优先级和抢占 26-Service 27-Ingress 上，并结合了社区中最佳的创意和实践。为什么使⽤容器寻找你为啥要使⽤容器的原因？ 01-什么是Kubernetes 4 部署应⽤程序的旧⽅法是使⽤操作系统的软件包管理器在主机上安装应⽤程序。这种⽅式，存在可执⾏⽂件、配置、库和⽣命周期与操作系统相互纠缠的缺点。⼈们可构建不可变的虚拟机映像，从⽽实现可预测的升级和回滚，但VM是重量级、不可移植的。新⽅法是部署容器，容器基于操作系统级别的虚拟化⽽不是硬件虚拟 Distributing secrets Checking application health Replicating application instances Using Horizontal Pod Autoscaling Naming and discovering Balancing loads Rolling updates Monitoring resources Accessing

0 码力 | 135 页 | 21.02 MB | 1 年前
3
k8s操作手册 2.3

本文档，则说明接受以上2个条款。作者：李茂福更新日期：2023-12-29 ★第0章、K8S集群搭建准备工作相关单词原义： docker 码头工人 pod 集装箱 kubernetes 舵手，领航员 helm 舵轮，驾驶盘 chart 图表，海图 ①k8s对系统要求 linux内核在3.10及以上，服务器规格2核cpu，2G内存及以上，可以装在虚拟机里，也可以装在实体机上 ②规划主机名及ip k8s的服务器使用固定ip地址，配置主机名，要求能解析相应的主机名（master 结点）到对应的ip地址，可以使用内网集群的dns服务器或写入/etc/hosts文件里。如：主机名 ip地址 k8s-master1.cof-lee k8s-node01.cof-lee.com 10.99.1.61 k8s-node02.cof-lee.com 10.99.1.62 规划Pod网络： 10.244.0.0/16 规划Service网络： 10.7.0.0/16 # pod网络和service网络都要求为16位的地址块，且不能与环境中其他网络地址段冲突 # hostnamectl set-hostname k8s-master1

0 码力 | 126 页 | 4.33 MB | 1 年前
3
第1930期：Kubernetes基础介绍

机制。水平扩展：通过简单明了实现水平扩展，基于CPU等资源负载率的自动水平扩展。服务发现和负载均衡：实现内部负载均衡可以实现服务访问负载。自动发布和回滚：可以自动实现版本的发布和回滚。秘钥和配置管理：对于密码等信息，专门提供了Secert对象为其解耦。存储编排：支持多种不同类型的存储，包括本地存储、云存储、网络存储等。批量处理执行：除服务型应用，还支持批处理作业CI（持续集成），如有需要，一样可以实现容器故障后修复。点控制器及服务账号和令牌控制器。负责维护集群的状态，比如故障检测、自动扩展、滚动更新等。 Scheduler调度器（kube-scheduler）：负责资源调度（Pod调度）的进程，相当于“调度室”。按照预定的调度策略将Pod调度到相应的机器上 etcd：集群的数据存储，他存储着集群中所有的资源对象。数据存储采用的是键值对存储。保存了整个集群的状态。 11 www.h3c.com Confidential Confidential 秘密 11 11 K8s基本概念和术语介绍（Node）工作节点（Node/Worker）： Node是集群的工作节点，运行具体的Pod，当某个Node宕机时，其工作负载会被Master自动转移到其他Node节点上。默认情况下kubelet会向Master注册自己。一旦Node被纳入集群管理，kubelet进程就会定时向Master节点汇报自身的情况，比如操作系统等信

0 码力 | 49 页 | 4.11 MB | 1 年前
3
Kubernetes + OAM 让开发者更简单

Kubernetes 对于应用开发复杂在哪里 1. 关注点不同业务研发 2. 语义与抽象程度不同业务运维 3. 交互与使用习惯不同业务研发、运维 YAML 文件图形化界面命令行工具 IaC 配置语言扩容策略 • 当 RT 上升 10% 时，自动扩容 100 个实例发布策略 • 当金丝雀实例通过 99% 的测试时，按每小时切 10% 流量的节奏进行发布 YAML 文件 YAML 代码、应用、CICD 流水线容器 Pod Controller 调度 Node Sidecar CNI CSI 研发都要做 Kubernetes 专家？ Kubernetes 构建 Platform on Kubernetes 控制器各种各样的控制器（Controller）容器虚拟机负载均衡数据库安全服务网络存储 Pod Deployment Service Service Node Custom Resource 一组容器一组 Pod 副本 Pod 的访问入口节点自定义对象声明式 API 对象基础设施层能力业务运维平台工程师业务研发扩容策略发布策略分批策略访问控制流量配置应用管理平台（Openshift、Cloudfoundry、阿里内部、腾讯内部 …）应用 CI/CD 流水线 K8s PaaS K8s 但是，K8s

0 码力 | 22 页 | 10.58 MB | 1 年前
3
运维上海2017－Kubernetes与AI相结合架构、落地解析-赵慧智

用来将需要容器化的应用程序及其环境进行打包后存储的镜像。 • 通常会有一个 Image 管理仓库来存储 Image。 • 同一个 Image 会有版本记录。 • 只包含软件环境的配置 • 硬件配置需要运行时去指定 OCI (Open Container Initiative) • From Linux Foundation • 旨在为 Container 格式和运行时创建开放行业标准。管理工具 (User Space) 如何通过 Docker 启动 Container 并与硬件绑定官方文档参考： https://docs.docker.com/engine/admin/resource_constraints/ Kubernetes 架构 Kubernetes 基本概念 - Node 一个 Node 是一个 Kubernetes 众多集群中的一个工作节点，一融合与架构解析 Kubernetes 基本概念 - Pod • Pod 是 Kubernetes 中最小的资源 • 一个 Pod 包含一个或多个 Container • Pod 内的 Containers 可以共享网络和存储 Kubernetes 基本概念 - Service • Service 是一组 Pod 协同工作。 • 有时也被称为微服务。 • 可以给

0 码力 | 77 页 | 14.48 MB | 1 年前
3
逐灵&木苏-阿里巴巴 K8S 超大规模实践经验

• 数十个集群 • 数十万的节点 • 单集群规模 10,000 节点 • • 数万个应用 • 超百万的容器 Online Service AI Job FaaS Middleware Resource management, Scheduling, Automated operation, etc. Workloads Containers Cluster Management IDC 传统运维体系的效率问题 - 应用启动流程复杂 - 决策链路较长 - 状态一致性风险容器平台监控 VIP 服务注册配置中心运维平台观察者异常消费基础设施异常来源• 统一容器与应用实例的生命周期 • 下沉应用的冗余度信息容器即应用运维平台监控 VIP 服务注册配置中心启动完成应用实例的生命周期 API Server Eviction Controller Kubernetes config binary Docker K8s Pod main Container logtail sshd monitor 业务 ssh 日志监控通过 Dockerfile 打包应用镜像，一次定义多次运行通过镜像提供的组装机制打包应用镜像，包含业务及运维基础设施进程更进一步组合多个容器为一个 Pod，Pod 一次定义多次运行不可变基础设施 • 应用与运维基础设施容器分离

0 码力 | 33 页 | 8.67 MB | 6 月前
3
腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅

自研容器云平台腾讯大数据云通用云平台目录 • 架构简介 • 企业级容器云解决方案 • Next 企业级容器云架构产品功能企业级容器云解决方案企业级场景易用 • 全组件自动化部署、统一配置管理、多策略灰度升级 • 提供可视化、自动化的运维能力，降低使用者的人力成本和学习成本可靠 • 所有组件无单点； • 平台本身支持热升级； • 组件自身HA机制，如docker； • 多地域多可用区的容灾设计集群核心数据的备份和恢复 ① Etcd ② 核心数据库 • 云盘机制保护应用数据 • 举例：1.4升级1.9版本 • Pod Hash发生变化 • Container名称发生变化，点分隔改为了下划线分隔 • 容器标签发生变化 pause容器的标签io.kubernetes.container.name=POD改为 io.kubernetes.docker.type=podsandbox io.kubernetes kubernetes.container.restartCount改为 annotation.io.kubernetes.container.restartCoun • Cgroup目录结构发生变化，新增Pod层级平台容灾应用容灾数据容灾企业内部各个集群灰度运营。可靠资源管理 CPU Memory Disk Space Network TX Network RX Disk

0 码力 | 28 页 | 3.92 MB | 1 年前
3
深度解析CNCF社区⾸个基于Kubernetes的边缘计算平台KubeEdge

& KubeEdge� 华为公有云智能边缘平台IEF以开源的KubeEdge为内核打造� KubeEdge基础架构� KubeEdge设备管理理——Kubernetes Custom Resource Definitions (CRD)� 应⽤用场景：智能家居设备云端托管� KubeEdge设备管理理——从云端同步期望设备状态到边缘� 应⽤用场景：智能家居设备远程控制� KubeE Server� KubeEdge Cloud� KubeEdge Edge� Wait for pod update� Send added pod to edge� Kubectl create� Create result� Send pod update to cloud� Update pod� Kubectl get� Get result� 应⽤用场景：智能家居应⽤用⽣生命周期管理理� 云端和边缘端的开源实现。� ➔ 使⽤用 kubectl 从云端向边缘节点部署应⽤用。� ➔ 使⽤用 kubectl 从云端对边缘节点的应⽤用进⾏行行配置管理理和密钥管理理。� ➔ 云和边缘节点之间的双向和多路路⽹网络通信。� ➔ Kubernetes Pod 和 Node 状态通过云端 kubectl 查询，从边缘端收集/报告数据。� ➔ 边缘节点在脱机时⾃自动恢复，并重新连接云端。�

0 码力 | 20 页 | 2.08 MB | 1 年前
3

共 70 条前往

页

分类

语言

格式