运维上海2017-机器学习模型训练的Kubernetes实践-袁晓沛
0 码力 | 39 页 | 5.82 MB | 1 年前3运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智
• 无缝升级应用 • 硬件隔离 Kubernetes 介绍 LXC (Linux Container) 介绍 在单一系统的内核层通过一套 API 在应用层提供硬件及软 件环境隔离的 Linux 环境(containers 。在内核层,通过 cgroup 来提供硬件环境的隔离(例如 CPU,Memory, Block I/O,网络等等 和通过 namespace 来提供软件层面 • kube-scheduler Kubernetes 与 Container 通信框架 Kubernetes 通过 CRI (Container Runtime Interface) 层将 Kuernetes 与具体的 Container 管理工具隔离,并且可以进行 Container 的操作。 在 Node 上的层次关系 通过 Label 的方式将 Node 分类 • 机器学习最难的地方在于特征的提取,而深度学习认为特征 提取是可以通过人工神经网络学习而得出结论的。深度学习 在非结构化数据方面有很大的优势。 卷积神经网络 - CNN 通过卷基层和池化层的网络结构进行不断的对图像的特征提取 数组运算并行化 – CUDA by Example 将数组 a 和数组 b 相加并将计算结果放入数组 c 中。 数组运算并行化 – CUDA by Example0 码力 | 77 页 | 14.48 MB | 1 年前3第29 期| 2023 年9 月- 技术雷达
7 众多大语言模型 大语言模型(LLMs)为现今人工智能的许多重要突破奠定了基础。目前的应用多使用类似聊天的界面进行交 互,例如 ChatGPT 或 Google Bard。生态中的主要竞争者(例如 OpenAI 的 ChatGPT,Google Bard,Meta 的 LLaMA 以及亚马逊的 Bedrock 等)在我们的讨论中占据重要地位。更广泛来说,大语言模型可以应用于从 内容 问题。通过自然语言的抽象层,这些大模型 成为了强大的工具库,被诸多信息工作者广泛使用。我们讨论了大语言模型的各个方面,包括自托管式大语言 模型,相较云托管的大语言模型,它支持更多的定制和管控。随着大语言模型日益复杂,我们正在深思如何在 小型设备上运行大语言模型,特别是在边缘设备和资源受限的环境中。我们还提到有望提高性能的 ReAct 提示 工程,以及利用大语言模型驱动的自主代理开发远超简单 的问答交互的动态应用。我们也提到一些向量数据库 (包括 Pinecone)由于大语言模型而重新流行起来。大语言模型的底层能力,包括更专业化和自行托管的能力, 将继续呈爆发性增长。 远程交付解决方案日臻成熟 尽管远程软件开发团队多年来利用技术克服地理限制,但疫情的影响进一步推动了这一领域的创新,巩固了向 完全远程或混合工作演进的趋势。在本期技术雷达中,我们讨论了远程软件开发实践和工具的成熟,和团队们0 码力 | 43 页 | 2.76 MB | 1 年前3云计算白皮书
深度挖掘云计算产业价值。我国政策指引云计算应用创新,持续推 动云计算与实体经济融合走深。 二是全球云计算市场稳定增长,我国保持快速发展。2022 年, 全球云计算市场规模为 4,910 亿美元,增速 19%,预计在大模型、 算力等需求刺激下,市场仍将保持稳定增长,到 2026 年全球云计算 市场将突破万亿美元。2022 年,我国云计算市场规模达 4,550 亿元, 较 2021 年增长 40.91%。相比于全球 年同比下降 13.5%。虽然受通胀压力和 宏观经济下行的双重影响,2022 年云计算市场增速下降明显,但对 比全球整体经济仅 3.4%的增长,云计算仍然是新技术融合和业态发 展的重要手段。预计在大模型、算力等需求刺激下,市场仍将保持 稳定增长,到 2026 年全球云计算市场将突破万亿美元。 来源:Gartner,2023 年 4 月 图 1 全球云计算市场规模及增速(亿美元) 1《Gartner 84%以上,是全球所有地区中最高的。以印度为例,2022 年其云支 出增长了近 22%,与欧洲地区几乎持平。同时,印度有 91%的基础 云计算白皮书(2023 年) 6 设施决策者已至少使用一种云部署模型,有 46%的应用程序项目已 部署在云上,预计 2023 年这一比例将上涨到 58%。从供给侧来看, 目前,AWS、微软、谷歌等云服务商均有 1/3 以上的可用区部署在 亚太地区。以 AWS0 码力 | 47 页 | 1.22 MB | 1 年前3Kubernetes开源书 - 周立
的基础架构。 Kubernetes满⾜了在⽣产中运⾏的应⽤程序的⼀些常⻅需求,例如: Co-locating helper processes ,促进组合应⽤程序和保留”⼀个应⽤程序的每个容器“模型 Mounting storage systems Distributing secrets Checking application health Replicating application Openshift 、 Deis 、Eldarion 等。 您也可实现⾃⼰的定制 PaaS,与您选择的CI系统集成,或者仅使⽤Kubernetes部署容器。 由于Kubernetes在应⽤层⾯⽽⾮硬件层⾯上运⾏,因此它提供了PaaS产品通⽤的功能,例如部署,扩展,负载均衡, ⽇志和监控。然⽽,Kubernetes并不是⼀个单体,这些默认解决⽅案是可选、可插拔的。 另外Kubernetes不仅仅是⼀个编制系统 annotation 记录。 动机 Label使⽤户能够以松耦合的⽅式,将⾃⼰的组织结构映射到系统对象上,客户端⽆需存储这些映射。 服务部署和批处理流⽔线通常是多维实体(例如:多个分区或部署、多个发布轨道、多个层、每层有多个微服务)。管 理往往需要跨部⻔才能进⾏,这打破了严格层级表现的封装,特别是由基础设施⽽⾮⽤户确定的刚性层次结构。 示例Label: "release" : "stable" , "release"0 码力 | 135 页 | 21.02 MB | 1 年前3Amazon Elastic Kubernetes Service (EKS) 初探秘
for Kubernetes 主机 容器在哪里运行 Amazon EC2 AWS Fargate 服务注册发现 云端服务的黄页 AWS Cloud Map 服务网格 服务间通信的基础设施层 © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential Amazon 借助云原生的负载均衡能力暴露Service • 每个通过 LoadBalancer(ELB或NLB)暴露出来 的Service获得自己的访问地址 • 可封装 L4 (TCP) 或 L7 (HTTP) 层Service • NLB 支持客户端访问IP地址透传到后端节点 Kubernetes ServiceType: LoadBalancer © 2019, Amazon Web Services Amazon Confidential 责任共担模型 Security in the Cloud Security of the Cloud © 2019, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential 责任共担模型(续) 用户 IAM 用户数据 平台及应用管理0 码力 | 39 页 | 1.83 MB | 1 年前3k8s操作手册 2.3
= 1 net.bridge.bridge-nf-call-arptables = 1 net.ipv4.ip_forward = 1 EOF #前3行表示bridge设备在二层转发时也去调用iptables配置的三层规则(包含 conntrack) # sysctl -p #加载配置 ⑧防火墙放行端口 TCP: 6443,2379,2380 pod都有一个ip,直接使用pod ip可以互相访问,但随着pod漂 移到其他node或pod重启后,其ip是会变的,不固定。底层使 用flannel时,pod容器的网络是封装在vxlan里,整个集群的 pod网络处于一个大二层overlay环境里 Cluster-ip Service网络,Cluster-IP用于集群内各服务互相访问的,因为 pod ip是会随pod的漂移而改变,所以需要一个固定的ip便于集 群内互访,是 no #可见k8s服务器上只有2个网桥,一个名为cni0,是k8s的pod网络用的,本k8s服 务器上的所有pod的网卡都连通到这个网桥里,即同一台k8s服务器上的所有pod 容器处于同一个二层广播域 ★k8s服务器上的各网卡关系图 [root@k8s-node01 ~]# ip route #查看k8s node结点上的路由表 default0 码力 | 126 页 | 4.33 MB | 1 年前34-2-如何用OpenStack和K8s快速搭建一个容器和虚拟机组合服务的云平台-王昕
——Kubernetes的优势 vs. Mesos and Swarm Ø 来自Google的简单一致的设计理念 Ø 原生为容器集群打造 Ø 原生服务发现 Ø 统一的资源模型 Ø 支持丰富的标签Label发现机制 Ø 原生负载均衡,高可用方案 Ø 原生的Rolling Update设计 Ø 为生产环境专门打造的容器集群 Ø 多镜像Pod Ø 多种业务类型:Service+RC/Job/DaemonSet emptyDir, hostPath, gcePersistentDisk, … Ø persistentVolumn, persistentVolumnClaim Kubernetes的统一资源模型和 丰富的标签选择器 Kubernetes的架构 Ø Pod: 最小部署单元,可支持多容器镜像 Ø RC:控制Pod的个数和Pod的生命周期 Ø Service:服务入口,由Kube-proxy支持负载均衡 原生负载均衡,高可用方案 Kubernetes所支持的存储卷类型 Kubernetes最新支持的资源类型 OpenStack和K8s的集成系统 支持跨IaaS部署K8s集群 网络集成方案的演变 IaaS层的物理网络架构 Management VLAN0 码力 | 38 页 | 3.55 MB | 1 年前3基于 Kubernetes 构建标准可扩展的云原生应用管理平台-孙健波、周正喜
完全兼容 JSON • 简单直观:schema 和 value 语法一致 完整的 k8s YAML 抽象数据 PaaS 层 UI (e.g. dashboard, cli) 用户 CUE schema/模板 “客户端”抽象 标准化的“服务端”抽象 – 应用模型 Open Application Model (OAM) • 通过 OAM spec 定义“以应用为中心”的原语 • 打破“谷仓” K8s Plugin HPA Deployment scale-to-0 Function Unified Model Layer Platform Capability Pool 统一的模型层 平台统一“能力池” 模块化的交付系统 - GitOps “应用”配置 Git (as source of truth) 持续集成 ● Build ● Run Unit Tests ● Workloads (YAML) Continuous Delivery is in k8s now! code 三者结合呢? • 基于 CUE 的客户端抽象 • 基于 OAM 的应用模型 • 围绕 GitOps 的持续交付 = “以应用为中心”的 K8s KubeVela Git (as source of truth) 持续集成 ● Build ● Run Unit0 码力 | 27 页 | 3.60 MB | 9 月前3Alluxio 助力 Kubernetes, 加速云端深度学习
Alluxio 助力 Kubernetes, 加速云端深度学习 范斌 Alluxio 创始成员 车漾 阿里云高级技术专家 目录 • 我们是谁 • 问题背景 • Alluxio 助力云原生 AI 模型训练 • 相关资料 • Alluxio 是谁 • Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌 Alluxio RestNet50 模型训练速度(images/second) 分布式训练/GPU硬件升级加速明显 模拟数据训练时间 108 15.12 4.62 3.39 1 0 20 40 60 80 100 120 P100 (1GPU) P100 (8GPU) P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练时间(hours) 单机缓存无法满足海量数据加速 9993.6 3189.6 0 2000 4000 6000 8000 10000 12000 Synthetic ESSD云盘 PL2 RestNet50 模型训练速度 (images/second) 云盘 Alluxio - 分布式缓存的领导者 开源项目由李浩源博士(Alluxio公司CEO)在加州大学Berkeley分校 AMPLab就读期间创立0 码力 | 22 页 | 11.79 MB | 1 年前3
共 38 条
- 1
- 2
- 3
- 4