运维上海2017-机器学习模型训练的Kubernetes实践-袁晓沛0 码力 | 39 页 | 5.82 MB | 1 年前3
Alluxio 助力 Kubernetes, 加速云端深度学习Alluxio 助力 Kubernetes, 加速云端深度学习 范斌 Alluxio 创始成员 车漾 阿里云高级技术专家 目录 • 我们是谁 • 问题背景 • Alluxio 助力云原生 AI 模型训练 • 相关资料 • Alluxio 是谁 • Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌0 码力 | 22 页 | 11.79 MB | 1 年前3
运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智云平台介绍及构成 AI 与 Kubernetes 融合与架构解析 AI (Artificial Intelligence) 人工智能(英语:Artificial Intelligence, AI 亦称机器智能,是 指由人工制造出来的系统所表现出来的智能。通常人工智能是 指通过普通电脑实现的智能。同时也指研究这样的智能系统是 否能够实现,以及如何实现的科学领域。 ------- wiki AI 具体应用场景 机器学习 vs 深度学习 • 机器学习是指通过算法,对数据进行分析,最终得出判断。 • 深度学习是指通过人工神经网络,通过对数据进行分析学习, 最终得出判断。 • 机器学习最难的地方在于特征的提取,而深度学习认为特征 提取是可以通过人工神经网络学习而得出结论的。深度学习 在非结构化数据方面有很大的优势。 卷积神经网络 - CNN – CUDA by Example 将数组 a 和数组 b 相加并将计算结果放入数组 c 中。 数组运算并行化 – CUDA by Example 当我们有多个 core 的时候 深度学习对于并行化硬件的依赖 - GPU • Core 的多少往往决定真正并行化运算的数量 GPU 硬件使用流程 AI 模型 • AI 模型会决定最终使用资源的多少 • AI 模型的服务性能还与网络相关0 码力 | 77 页 | 14.48 MB | 1 年前3
202106 KubeOperator:开源的轻量级 Kubernetes 发行版
Kubernetes 集群。 计算 ⽹网络 存储 ⽤用途 ⼀一键部署 可视化安装 管理理 备份 伸缩 监控 ⽇日志 Day 0 Day 1 Day 2 规 划 部 署 运 营 升级 在线 / 离线 KubeOperator 的开发团队和运作模式 • 由 Jumpserver 开源明星团队打造; • 遵循 Apache 2.0 开源许可协议 (github.com/kubeoperator); 节点分布在不不同的故障域 简单易易⽤用 通过 Web UI 来管理理和运营 K8S 集群 离线⽀支持 ⽀支持离线环境下的 K8S 集群 的部署与升级 GPU ⽀支持 轻松运⾏行行机器器学习、⾼高性能 计算等⼯工作负载 DIY ⽅方式 VS. 采纳 KubeOperator 3 个⽉月 + 5 ⼈人 + 500 ⼈人天 + 4 ⼩小时 1 个⼈人 0 ⼈人天 从⼊入⻔门到运⾏行行⽣生产级别的应⽤用 NVIDIA GPU; 操作系统 ⽀支持 RHEL / CentOS / EulerOS 操作系统; 容器器运⾏行行时 ⽀支持 Docker / Containerd; Day 1 部署 部署 ⽀支持在线和离线安装模式;⽀支持 Kubeadm 部署;⽀支持 x86 64 和 ARM64 CPU 架构;⽀支持 x86 64 和 ARM64 混合部署;⽀支持可视化⽅方式展示部署过程;⽀支持⼀一键⾃自动化部0 码力 | 20 页 | 1.62 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达目标的进展程度,使用大语言模型来思考接下来该做什么,然后采取行动,并理解何时已经实现了目标。这通 常被称为思维链推理,而且实际上是可行的。我们的团队实现了一个作为自主代理的客户服务聊天机器人。如 果机器人无法达成客户的目标,它会认识到自己的限制并将客户引导到人工处理。这种方法显然仍处于早期发 展阶段:自主代理通常存在高失败率和高昂的 AI 服务费用,至少有一家 AI 初创公司已经从代理为基础的方法转 等多种不同的数据源进行查询。它支持基于密码的认证、LDAP 和 OAuth 的身份验证机制,同时具备在 catalog、 schema 和 table 级别授予权限和访问控制的能力。我们的团队根据可视化、报告或机器学习用例等消费模式, 使用资源组进行管理和限制资源分配。基于 JMX 的监控提供了丰富的指标集,帮助实现在查询或用户级别进行 成本分配。我们的团队将 Trino 用作跨各种数据源的数据访问网关,当涉及到查询极大规模的数据时,Trino 以及基于 Web 的界面提供对 OpenAI 的 GPT-4、GPT-35-Turbo 和嵌入模型的访问。这些模型可以适应如内容生成、汇总、语义搜索和自然语言到代码 的转换的任务,也可以通过少量学习和超参数的定制进行微调。与 OpenAI 自己的 API 相比,Azure OpenAI 服 务受益于 Azure 企业级的安全性和合规性,同时也在更多的区域可用,哪怕每个较大的地理区域的可用性是有0 码力 | 43 页 | 2.76 MB | 1 年前3
腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅Next 企业级容器云架构 产品功能 企业级容器云解决方案 企业级 场景 易用 • 全组件自动化部署、统一配置管理、多策略灰度升级 • 提供可视化、自动化的运维能力,降低使用者的人力成本和学习成本 可靠 • 所有组件无单点; • 平台本身支持热升级; • 组件自身HA机制,如docker; • 多地域多可用区的容灾设计 • 管理机挂掉:对应用无影响 • 计算节点挂掉:跨机迁移 • 健康探针 Disk IO (include buffer IO) GPU 背景:广告业务,8个集群,4个在线集群,4个离线集群, 分布在四个地区:北京、天津、成都、深圳。 需求:减少机器,降低成本。 手段:在线离线集群做合并。 问题:容器只能管理CPU和内存,不能对网络和磁盘IO做 管理,导致在线应用受离线业务影响。 一次现网事故 一个用户需求 可靠 设计目标 ◼在某个cgroup网络 • 不同的应用可以选择不同的网络模式 • 同一主机的不同容器可以选择不同的网络模式 自研容器网络解决方案Galaxy(CNI网络插件+调度器插件+控制器),面向所有场景: 高性能互联网业务、离线业务、在线离线混合场景、传统有状态服务、公有云… 性能 22190 7261 16462 4861 17442 5548 21461 6828 0 5000 10000 150000 码力 | 28 页 | 3.92 MB | 1 年前3
Kubernetes for Edge Computing across
Inter-Continental Haier Production Sites德国联邦政府支持相关行业协会建设工业4.0平台,负 责工业4.0国家战略的宣传推广,标准制定,人才培养 和技术研发。 以工业大数据为驱动,以云计算,大数据, 物联网技术为核心的工业互联网开放平台, 实现产品,机器,数据,人的全面互联互 通和综合集成 INDICS平台 根云平台 COSMOPlat平台 … 2017年11月,国务院印发了《关于深化“互联网+先进 制造业”发展 工业互联网的指导意见》(以下简称: Gateway 负载均衡 应用编排 日志监控 告警 服务发现 API 业务中台 多租户管理 运维中台 云端操作系统 数据中台 面向数据与智能 数据管理 大数据 机器学习 资源管理 深度学习 AI工具 API IOT中台 面向行业解 决方案 边缘计算 数据通道 数据分析 API 海尔工业互联网 - 微服务之框架支持 Netflix Config Server 才云数据解决方案 边缘计算场景 1. 海尔在全球有许多工厂 2. 工厂里的机器不多 3. 这些机器上跑了一些容器服务 4. 因为机器数量不多,不希望每个工厂组成一个 k8s 集群 5. 也不可能将这些工厂的机器作为node 节点添加到青岛 的 k8s 集群,因为可能受到vpn 等网络的限制 6. 这些分布在各个工厂的零散的机器上跑的容器服务就称 为边缘容器服务 7. 海尔希望有一个多租户平台既能管理多个0 码力 | 33 页 | 4.41 MB | 1 年前3
云计算白皮书注重敏捷迭代,提升 效率。用户对加速创新,缩短研发周期,提高迭代效率的需求日益 增大,以 Serverless(服务器无感知)、低/无代码为代表的技术能够 屏蔽复杂的底层基础设施,让用户以最低学习成本、最小使用代价 最大化释放云的生产力,实现快速创新。AWS 贯彻全面 Serverless 化战略,提供计算、存储、数据库等全领域的 Serverless 服务。微软 发力低/无代码领域,其发布的 的云成本进行汇总并合理分配至每一个成本中心,提升云成本账单 在企业财务层面的可见性。其次,在云成本预测场景下,智能预测 技术结合企业云成本及资源使用和成本支出历史数据对未来云资源 费用情况进行智能化预测,通过机器学习、AI 等技术生成可供企业 参考的云成本优化建议,帮助企业提前规划并控制云成本支出。第 三,在云成本计量计费场景下,虚拟计费技术能够帮助企业对自建 私有云等资源进行虚拟计费,通过自定义计费策略及支出模式,为 统”, 感知系统状态、定位系统故障,协助进行容量治理及性能调优,并 通过建立基线模型和监测系统的行为模式,来检测和预测异常情况, 实现自动化运维和自愈能力。三是机器学习与人工智能提升稳定性 保障的建设成效。人工智能和机器学习技术将在系统稳定性保障技 术体系中发挥越来越重要的作用,并进一步提升落地成效。通过对 云计算白皮书(2023 年) 21 数据进行智能分析,可以实现故障预测、自动诊断、场景演练和自0 码力 | 47 页 | 1.22 MB | 1 年前3
Serverless Kubernetes - 理想,现实和未来-张维Serverless Kubernetes 理想,现实和未来 张维 阿里巴巴高级技术专家 观看视频回放 Serverless:关注应用而非基础设施 敏捷开发 极致弹性 成本优化 • 无需购买和安装机器 • 无需管理服务器 • 无需升级和更新OS • 快速部署和更新应用 • 快速发布 • “无限”容量 • 秒级弹性 • 更好的扩展性 • 更好的灵活性 • 按需创建 • 无资源闲置 无厂商绑定风险 Serverless Container Landscape Serverless容器典型场景和客户价值 在线业务 弹性扩容 Serverless AI Serverless 大数据计算 CI/CD • 30s 500pod • 非预期突发流量 • 适用电商、在线教育等行业 • Spark/Presto • 高弹性低成本 • 免容量规划 • Jenkins/Gitlab-Runner0 码力 | 20 页 | 2.27 MB | 1 年前3
第1930期:Kubernetes基础介绍高级的自动化任务。Kubernetes 具备完善的集群管理能力,包括多层次的安全防护和准入机制、多租户应用支撑能力、透明 的服务注册和服务发现机制、内建负载均衡器、故障发现和自我修复能力、服务滚动升级和在线扩容、可扩展的资源自动调度 机制、多粒度的资源配额管理能力。 Kubernetes 还提供完善的管理工具,涵盖开发、部署测试、运维监控等各个环节。 5 www.h3c.com Confidential 和令牌控制器。负责维护集群的状态,比如故障检测、自动扩展、滚动更新等。 Scheduler调度器(kube-scheduler):负责资源调度(Pod调度)的进程,相当于“调度室”。按照预定的调度策略 将Pod调度到相应的机器上 etcd:集群的数据存储,他存储着集群中所有的资源对象。数据存储采用的是键值对存储。保存了整个集群的状态。 11 www.h3c.com Confidential 秘密 11 11 K8s基本概念和术语介绍(Node) logs查看某个pod的日志 kubectl logs –f -c 跟踪容器的日志,相当于tail –f 7. 在线修改pod的副本数量 kubectl scale rc --replicas=2 将某个rc的副本数修改为2 注意:修改不会影响yaml文件。 8. 基于一个镜像在k8s集群上启动一个Deployment 0 码力 | 49 页 | 4.11 MB | 1 年前3
共 31 条
- 1
- 2
- 3
- 4













