Alluxio 助力 Kubernetes, 加速云端深度学习Alluxio 助力 Kubernetes, 加速云端深度学习 范斌 Alluxio 创始成员 车漾 阿里云高级技术专家 目录 • 我们是谁 • 问题背景 • Alluxio 助力云原生 AI 模型训练 • 相关资料 • Alluxio 是谁 • Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌0 码力 | 22 页 | 11.79 MB | 1 年前3
运维上海2017-机器学习模型训练的Kubernetes实践-袁晓沛0 码力 | 39 页 | 5.82 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达及其后继方法已指引出大语言模型最令人兴奋的一些应用领域。 10. 检索增强生成 试验 检索增强生成(RAG) 是一种结合预训练参数和非参数记忆的文本生成技术。它使你能够通过你的领域内特有 的包含上下文的知识,来强化预训练模型中的现有知识。使用 RAG,你会先从非参数记忆中去检索相关文档集 (一般是通过在向量数据库中的相似性搜索),再使用 LLM 中的参数记忆生成与检索出的文档一致的输出。我们 发现 RAG 等多种不同的数据源进行查询。它支持基于密码的认证、LDAP 和 OAuth 的身份验证机制,同时具备在 catalog、 schema 和 table 级别授予权限和访问控制的能力。我们的团队根据可视化、报告或机器学习用例等消费模式, 使用资源组进行管理和限制资源分配。基于 JMX 的监控提供了丰富的指标集,帮助实现在查询或用户级别进行 成本分配。我们的团队将 Trino 用作跨各种数据源的数据访问网关,当涉及到查询极大规模的数据时,Trino 以及基于 Web 的界面提供对 OpenAI 的 GPT-4、GPT-35-Turbo 和嵌入模型的访问。这些模型可以适应如内容生成、汇总、语义搜索和自然语言到代码 的转换的任务,也可以通过少量学习和超参数的定制进行微调。与 OpenAI 自己的 API 相比,Azure OpenAI 服 务受益于 Azure 企业级的安全性和合规性,同时也在更多的区域可用,哪怕每个较大的地理区域的可用性是有0 码力 | 43 页 | 2.76 MB | 1 年前3
QCon北京2018/QCon北京2018-基于Kubernetes与Helm的应用部署平台构建实践-张夏-赵明+基于Consul的混合云服务发现与演示 • 应用在混合云上的端到端测试方案 • 后续工作展望 公司与项目背景介绍 FreeWheel, A Comcast Company(以下简称FreeWheel)以全方位强化新型电视生态系 统为己任,为客户提供FreeWheel视频媒体解决方案、FreeWheel广告交易市场和 FreeWheel广告主解决方案,致力于满足广告业蓬勃发展的每一处需求。 FreeWh0 码力 | 28 页 | 12.18 MB | 1 年前3
运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智------- wiki AI 具体应用场景 机器学习 vs 深度学习 • 机器学习是指通过算法,对数据进行分析,最终得出判断。 • 深度学习是指通过人工神经网络,通过对数据进行分析学习, 最终得出判断。 • 机器学习最难的地方在于特征的提取,而深度学习认为特征 提取是可以通过人工神经网络学习而得出结论的。深度学习 在非结构化数据方面有很大的优势。 卷积神经网络 - CNN – CUDA by Example 将数组 a 和数组 b 相加并将计算结果放入数组 c 中。 数组运算并行化 – CUDA by Example 当我们有多个 core 的时候 深度学习对于并行化硬件的依赖 - GPU • Core 的多少往往决定真正并行化运算的数量 GPU 硬件使用流程 AI 模型 • AI 模型会决定最终使用资源的多少 • AI 模型的服务性能还与网络相关 将计算工作部署到桌面设备、服务器或者移动设 备中的一个或多个 CPU 或 GPU。 TensorFlow 最初是由 Google 机器智能研究部门的 Google Brain 团队中的研究人 员和工程师开发的,用于进行机器学习和深度神经网络研 究, 但它是一个非常基础的系统,因此也可以应用于众多其 他领域。 分布式 TensorFlow 存储对接 通过 Kubernetes 的 Volume 机制将分布式存储的具体地址0 码力 | 77 页 | 14.48 MB | 1 年前3
石油巨头与Kubernetes, Microservice & DevOps 共舞1114最终版壁垒,交付过程标准化, 透明化 持续构建与测试 保障代码质量,提升开发效率 知识共享 知识共享与积累,不断完善,持 续学习改进 认证与改进 持续优化, 形成闭环 运维监控 运⾏状态可视化,数据化,降低 部署⻛险,快速反馈 运营统计 全链路指标统计,为持续改进提 供数据⽀撑 学习培训 保障平台使⽤效果,快速实践落 地 DEVOPS⼯具 DEVOPS体系构成 企业级DEVOPS全景图 流⽔线建设 规范 敏捷开发 规范 流程协作与最 佳实践 项⺫管理 进度 管理 范围 管理 质量 管理 ⼈⼒ 管理 ⻛险 管理 沟通 管理 知识共享 知识 库建 设 ⽂档 协作 学习培训体系 培训规划建设 平台培训 ⼯具培训 培训效果评估 LAB 环境建设 标准案例建设 知识库建设培训 成熟度评审 度量驱动改进 认证与改进体系 已选⽤⼯具 JIRA Confluen0 码力 | 33 页 | 7.49 MB | 1 年前3
云计算白皮书注重敏捷迭代,提升 效率。用户对加速创新,缩短研发周期,提高迭代效率的需求日益 增大,以 Serverless(服务器无感知)、低/无代码为代表的技术能够 屏蔽复杂的底层基础设施,让用户以最低学习成本、最小使用代价 最大化释放云的生产力,实现快速创新。AWS 贯彻全面 Serverless 化战略,提供计算、存储、数据库等全领域的 Serverless 服务。微软 发力低/无代码领域,其发布的 的云成本进行汇总并合理分配至每一个成本中心,提升云成本账单 在企业财务层面的可见性。其次,在云成本预测场景下,智能预测 技术结合企业云成本及资源使用和成本支出历史数据对未来云资源 费用情况进行智能化预测,通过机器学习、AI 等技术生成可供企业 参考的云成本优化建议,帮助企业提前规划并控制云成本支出。第 三,在云成本计量计费场景下,虚拟计费技术能够帮助企业对自建 私有云等资源进行虚拟计费,通过自定义计费策略及支出模式,为 ”, 感知系统状态、定位系统故障,协助进行容量治理及性能调优,并 通过建立基线模型和监测系统的行为模式,来检测和预测异常情况, 实现自动化运维和自愈能力。三是机器学习与人工智能提升稳定性 保障的建设成效。人工智能和机器学习技术将在系统稳定性保障技 术体系中发挥越来越重要的作用,并进一步提升落地成效。通过对 云计算白皮书(2023 年) 21 数据进行智能分析,可以实现故障预测、自动诊断、场景演练和自0 码力 | 47 页 | 1.22 MB | 1 年前3
破解 Kubernetes 应用开发困局-王炜容器越来越多,服务编排、发现、稳定性监控、自愈等成为新的挑战。 Kubernetes 提供容器编排的解决方案。 6 面向运维 •开发难 概念繁多,声明式定义学习成本高。 •调试难 无法像本地一样调试,开发效率低。 完全面向运维提供能力,对开发增加了巨大的负担。 云原生环境下的学习成本,招聘成本,用人成本急剧上升。 7 云原生开发技能广度要求急剧提升 8 云原生开发工具依然缺失 主流云原生开发方式 020 码力 | 20 页 | 3.58 MB | 9 月前3
基于 Kubernetes 构建标准可扩展的云原生应用管理平台-孙健波、周正喜构建一个具备“以应用为中心的 API 抽象”、“用户友好” 且“高度可扩展”的 K8s! 以应用为中心的 API 抽象 • 应用的工作负载和运维能力的抽象程度越高,用户体验越好 抽象程度 学习曲线 高 低 低 高 Deployment Pod Service Node … PodTemplate Configuration Revision Route $ heroku apps rio run $ rio scale $ rio weight/promote $ rio route $ rio up riofile 抽象程度 vs 可扩展性 • 随着抽象程度的增高可以显著降低学习曲线,但是却不得不在扩展性上妥协 抽象程度 可扩展性 高 低 低 高 CRD + Controllers = Everything 通过编写遵循严格限制 的 Buildpack 和 Addon0 码力 | 27 页 | 3.60 MB | 9 月前3
202106 KubeOperator:开源的轻量级 Kubernetes 发行版
节点分布在不不同的故障域 简单易易⽤用 通过 Web UI 来管理理和运营 K8S 集群 离线⽀支持 ⽀支持离线环境下的 K8S 集群 的部署与升级 GPU ⽀支持 轻松运⾏行行机器器学习、⾼高性能 计算等⼯工作负载 DIY ⽅方式 VS. 采纳 KubeOperator 3 个⽉月 + 5 ⼈人 + 500 ⼈人天 + 4 ⼩小时 1 个⼈人 0 ⼈人天 从⼊入⻔门到运⾏行行⽣生产级别的应⽤用 应⽤用商店 提供 GitLab、Jenkins、Harbor、Argo CD、Sonarqube 等 CI/CD ⼯工具;提供 Kuboard、Weave Scope、Redmine 等管理理⼯工具;提供深度学习AI 应⽤用,⽐比如 TensorFlow。 KubeOperator 企业版⽀支持服务内容 ⽀支持服务 7×24 ⼯工单及电话⽀支持服务,1 个⼩小时内响应客户⼯工单;接到故障申报后,⼯工程师通过电话⽀支持、远程接0 码力 | 20 页 | 1.62 MB | 1 年前3
共 22 条
- 1
- 2
- 3













