运维上海2017-机器学习模型训练的Kubernetes实践-袁晓沛
0 码力 | 39 页 | 5.82 MB | 1 年前3第29 期| 2023 年9 月- 技术雷达
7 众多大语言模型 大语言模型(LLMs)为现今人工智能的许多重要突破奠定了基础。目前的应用多使用类似聊天的界面进行交 互,例如 ChatGPT 或 Google Bard。生态中的主要竞争者(例如 OpenAI 的 ChatGPT,Google Bard,Meta 的 LLaMA 以及亚马逊的 Bedrock 等)在我们的讨论中占据重要地位。更广泛来说,大语言模型可以应用于从 内容 。通过自然语言的抽象层,这些大模型 成为了强大的工具库,被诸多信息工作者广泛使用。我们讨论了大语言模型的各个方面,包括自托管式大语言 模型,相较云托管的大语言模型,它支持更多的定制和管控。随着大语言模型日益复杂,我们正在深思如何在 小型设备上运行大语言模型,特别是在边缘设备和资源受限的环境中。我们还提到有望提高性能的 ReAct 提示 工程,以及利用大语言模型驱动的自主代理开发远超简单的问 答交互的动态应用。我们也提到一些向量数据库 (包括 Pinecone)由于大语言模型而重新流行起来。大语言模型的底层能力,包括更专业化和自行托管的能力, 将继续呈爆发性增长。 远程交付解决方案日臻成熟 尽管远程软件开发团队多年来利用技术克服地理限制,但疫情的影响进一步推动了这一领域的创新,巩固了向 完全远程或混合工作演进的趋势。在本期技术雷达中,我们讨论了远程软件开发实践和工具的成熟,和团队们0 码力 | 43 页 | 2.76 MB | 1 年前3Kubernetes开源书 - 周立
:可运⾏在Ubuntu、RHEL、CoreOS、内部部署,Google Container Engine以及任何其他 地⽅。 以应⽤为中⼼的管理:从在虚拟硬件上运⾏操作系统的抽象级别,提升到使⽤逻辑资源在操作系统上运⾏应⽤程序 的级别。 松耦合,分布式,弹性,解放的微服务:应⽤程序分为更⼩、独⽴的部件,可动态部署和管理——⽽不是⼀个运⾏ 在⼀个⼤型机上的单体。 01-什么是Kubernetes 的基础架构。 Kubernetes满⾜了在⽣产中运⾏的应⽤程序的⼀些常⻅需求,例如: Co-locating helper processes ,促进组合应⽤程序和保留”⼀个应⽤程序的每个容器“模型 Mounting storage systems Distributing secrets Checking application health Replicating application s集群的etcd数据提供备份计划。 kube-controller-manager kube-controller-manager 运⾏Controller,它们是处理集群中常规任务的后台线程。逻辑上来讲,每个Controller都是⼀ 个单独的进程,但为了降低复杂性,它们都被编译成独⽴的⼆进制⽂件并运⾏在⼀个进程中。 这些控制器包括: Node Controller:当节点挂掉时,负责响应。0 码力 | 135 页 | 21.02 MB | 1 年前3运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智
的时候 深度学习对于并行化硬件的依赖 - GPU • Core 的多少往往决定真正并行化运算的数量 GPU 硬件使用流程 AI 模型 • AI 模型会决定最终使用资源的多少 • AI 模型的服务性能还与网络相关 • 并不是所有 AI 模型都适合通过 GPU 加速 Kubernetes 介绍 Kubernetes 使用 Kubernetes 部署与企业对接 AI Kubernetes 融合与架构解析 AI 云平台的价值 • 为 AI 工程师提供一体化的研发工作环境 • 为 AI 对于硬件资源需求提供弹性伸缩 • 为 AI 模型在生产环境中部署及运行提供保障 AI 模型实现工具及其框架举例 • 不同的框架和工具都有其优点长处。 AI 工程师工作流程 存储对接 • 存储通常都由云平台 通过SaaS服务提供 • 在 AI 平台中对于存 AI 工具及其研发框架的整合 模型训练资源池管理 • AI 模型训练会耗费巨大的资源并且长时间占用 • 多个用户在模型训练时需要通过队列的方式来解决资源短缺 问题 • 需要对不同用户进行资源池划分 模型管理与发布 • 模型发布: • 模型服务的负载均衡 • 硬件资源的规划 • 模型管理: • 模型的版本 • 模型的类型 研发环境与生产环境隔离0 码力 | 77 页 | 14.48 MB | 1 年前3Operator Pattern 用 Go 扩展 Kubernetes 的最佳实践
扩展 K8s 的最佳实践 吴学强 ApeCloud KubeBlocks Maintainer & 研发总监 目 录 认识我们 00 什么是 Operator 01 Operator 基础模型 02 Operator 最佳实践 03 我们是谁 云猿生(ApeCloud)是一家提供数据库内核与管理平台的基 础软件开发商. KubeBlocks 基于 K8s 的多云、混合云DBPaaS管理平台 小版本升级、大版本升级、安全漏洞修复等等。 Data Migrations 迁移、同步、清洗、跨地域、灾备、多活等等。 DB Operator Day-2 Operations Operator 基础模型 第二部分 K8s 架构 Cache Informer 机制 Cache 如何获取到本地(内存中) Informer 启动后会通过 reflector 的 list & watch 机制获取某种资源的 的是最终一致性(eventual consistency)。 期间遇到网络、API Server 报错等异常时,会有重试机制 Controller-runtime 的 Informer 增加一段逻辑:如果上层 GET 某个 object 没有对应的 informer, controller-runtime 会马上为其增加 informer 并完成初始化 Cache 注意事项 Cache 中0 码力 | 21 页 | 3.06 MB | 9 月前32.2.4 基于Kubernetes的私有云实战
•服务数量暴涨 •资源需求暴涨 •部署效率急需提高 •研发期望独占资源 服务治理现状 •Homebrew microservice •配置手工管理 •L7划分不清,耦合业务逻辑 •SDK能发现grpc发现不了http 部署环境现状 •复杂的环境管理和大量的AB服 务产生了复杂的部署系统 •AB服务是中短期资源消耗型服 务,要求交付快释放快 上云前的现状 基础网络IP可达就可用,适用性高,有一定网络延迟 方案二:Calico网络方案 基于BGP做动态路由发现的网络模型,需要基础网络支持BGP,架构复杂 方案三:Macvlan网络方案 Macvlan是Linux操作系统内核提供的网络虚拟化方案之一 它可以为一张物理网卡设置多个mac地址 Macvlan Wins! •几乎是业界最快网络模型 •网络延迟几乎与物理机一致 •简单的设计,易掌控 集群方案 一个超大集群还是多个中小集群?0 码力 | 47 页 | 10.67 MB | 1 年前3第1930期:Kubernetes基础介绍
ter或者name=salve的资源 name not in (php):匹配所有不具有标签name=php的资源对象 也可以多个条件一起使用。 标签和标签选择器共同构成了k8s系统中最核心的应用模型,使得被管理对象能够被精细的分组管理,同时实现了整 个集群的高可用性。 17 www.h3c.com Confidential 秘密 17 17 K8s基本概念和术语介绍(RC) RC Replication Azure云;支持多种分布式存储包括GlusterFS和Ceph;也支持 较容易使用的主机本地目录hostPath和NFS。K8s还支持使用Persistent Volume Claim即PVC这种逻辑存储,使用这种 存储,使得存储的使用者可以忽略后台的实际存储技术(例如AWS,Google或GlusterFS和Ceph),而将有关存储实际 技术的配置交给存储管理员通过Persistent Volume来配置。 K8s基本概念和术语介绍(PV和PVC) Persistent Volume,PV(持久存储卷)和 Persistent Volume Claim,PVC(持久存储卷声明): PV和PVC使得K8s集群具备了存储的逻辑抽象能力,使得在配置Pod的逻辑里可以忽略对实际后台存储技术的配置, 而把这项配置的工作交给PV的配置者,即集群的管理者。存储的PV和PVC的这种关系,跟计算的Node和Pod的关系是非 常类似的;PV和Node是0 码力 | 49 页 | 4.11 MB | 1 年前3张海宁:使用Kubernetes部署超级账本Fabric
CaaS,介于PaaS和IaaS之间 SACC2017 20 Kubernetes 架构 SACC2017 21 K8s 集群模型 • 一个或多个主节点 (master) • 一个或多个工作节点(worker) • 命名空间(Namespaces) – 用于命名分隔资源的逻辑组 K8s Cluster Worker node 1 Worker node 2 Worker node SACC2017 • 基于Kubernetes容器云平台初步实现BaaS的基础部署步骤。 • 在此之上,增加更多的区块链层运维管理功能,图形化运 维界面,使得开发人员投入更多的精力到应用的业务逻辑 上。 • 详细文档和代码: https://github.com/hainingzhang/articles 44 总结 公众号:亨利笔记 SACC20170 码力 | 45 页 | 2.70 MB | 1 年前3k8s操作手册 2.3
PV是集群级别的资源,不属于任何名称空间;用户需要通过PVC向PV提出使用 申请,最终的容器是与pvc关联的 pvc有命名空间之分,pv不分命名空间 ★创建存储类SC StorageClass存储类是一个逻辑上的分组,根据后端存储的特性、性能、用作等 将PV分到不同的类里,创建PVC时可指定使用某个存储类的PV,方便管理。 只 有 属 于 同 一 StorageClass 和 PVC 和 PV 才 能 产 spec: capacity: #此PV的容量 storage: 10Gi volumeMode: Filesystem #卷模型,指定此卷是文件系统还是裸格式的块 设备,默认为文件系统 accessModes: #访问模式 - ReadWriteMany spec: capacity: #此PV的容量 storage: 10Gi volumeMode: Filesystem #卷模型,指定此卷是文件系统还是裸格式的块 设备,默认为文件系统 accessModes: #访问模式 - ReadWriteMany0 码力 | 126 页 | 4.33 MB | 1 年前3高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰
KubeBrain 逻辑层 逻辑层 – 写 逻辑层 – Watch(1) Watch 机制本质上是一个消息队列系统 1. 可靠性 - 不重复、不丢失 2. 顺序性 - 保证最终状态的一致性 3. 实时性 - 高性能 一定有一个单点对消息进行排序 采用主从架构 逻辑层 – Watch(2) 一主多从 1. 仅主节点负责写入和事件生成 2. 从节点只读 逻辑层 – Watch(3) 读有关 逻辑层 – 单 Key 读 逻辑层 – Range 读 逻辑层 – Range 读一致性 • Range 从 Leader 获取滑动窗 口当前 Committed Index 序 号 • 根据当前序号进行快照读 • Range 后 Client 通过 Watch 从leader RingBuffer 中获取 增量事件,达到 最终一致性 逻辑层 – 选主 逻辑层 – TSO 降低时延,减轻存储压力 Watch 优化 - 1 写性能提升带来直接收益 写延迟降低,watch 延迟自然会降低 Watch 优化 - 2 纯内存态实现 无延迟损耗 Watch 优化 - 3 逻辑优化 update 方法中,PreKV 字段 apiserver 不会使用,减少一次读 压测数据 • 背景介绍 • 设计思路 • 性能优化 • 落地效果 • 未来演进 落地效果 0 码力 | 60 页 | 8.02 MB | 1 年前3
共 37 条
- 1
- 2
- 3
- 4