Alluxio 助力 Kubernetes, 加速云端深度学习Alluxio 助力 Kubernetes, 加速云端深度学习 范斌 Alluxio 创始成员 车漾 阿里云高级技术专家 目录 • 我们是谁 • 问题背景 • Alluxio 助力云原生 AI 模型训练 • 相关资料 • Alluxio 是谁 • Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌0 码力 | 22 页 | 11.79 MB | 1 年前3
深度解析CNCF社区⾸个基于Kubernetes的边缘计算平台KubeEdge深度解析CNCF社区⾸首个基于Kubernetes的边缘计算平台KubeEdge� 向新勇� https://github.com/edisonxiang� Introduce� ➔ 华为开源社区⼯工程师� ➔ KubeEdge社区Member� ➔ Kubernetes社区Member� ➔ OpenSDS社区Memeber� ➔ OpenStack社区数据保护项⽬目联合发起⼈人�0 码力 | 20 页 | 2.08 MB | 1 年前3
运维上海2017-机器学习模型训练的Kubernetes实践-袁晓沛0 码力 | 39 页 | 5.82 MB | 1 年前3
运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智------- wiki AI 具体应用场景 机器学习 vs 深度学习 • 机器学习是指通过算法,对数据进行分析,最终得出判断。 • 深度学习是指通过人工神经网络,通过对数据进行分析学习, 最终得出判断。 • 机器学习最难的地方在于特征的提取,而深度学习认为特征 提取是可以通过人工神经网络学习而得出结论的。深度学习 在非结构化数据方面有很大的优势。 卷积神经网络 - CNN – CUDA by Example 将数组 a 和数组 b 相加并将计算结果放入数组 c 中。 数组运算并行化 – CUDA by Example 当我们有多个 core 的时候 深度学习对于并行化硬件的依赖 - GPU • Core 的多少往往决定真正并行化运算的数量 GPU 硬件使用流程 AI 模型 • AI 模型会决定最终使用资源的多少 • AI 模型的服务性能还与网络相关 将计算工作部署到桌面设备、服务器或者移动设 备中的一个或多个 CPU 或 GPU。 TensorFlow 最初是由 Google 机器智能研究部门的 Google Brain 团队中的研究人 员和工程师开发的,用于进行机器学习和深度神经网络研 究, 但它是一个非常基础的系统,因此也可以应用于众多其 他领域。 分布式 TensorFlow 存储对接 通过 Kubernetes 的 Volume 机制将分布式存储的具体地址0 码力 | 77 页 | 14.48 MB | 1 年前3
云计算白皮书Smart)之后,又出台多个战略文件, 将云计算应用至相关领域,并明确提出通过云战略获取全球优势, 以确保其在经济、军事、科技等领域的领先地位。欧洲、亚洲等主 要国家纷纷发布国家战略或计划,推动云计算在各行业的应用布局, 深度挖掘云计算产业价值。我国政策指引云计算应用创新,持续推 动云计算与实体经济融合走深。 二是全球云计算市场稳定增长,我国保持快速发展。2022 年, 全球云计算市场规模为 4,910 亿美元,增速 信云”认证、“云中心”政策和工业战略。2021 年 6 月,意大利政府 宣布了云计算的国家战略,创建存储所有公共部门应用程序和公民 数据的国家级云计算系统,并将相关数据向“国家云”转移。 英国和澳大利亚政府发布国家战略,深度挖掘云计算的产业赋 能价值。在政府云战略(G-Cloud)基础上,英国国防部在 2023 年 2 月又发布了《国防云战略路线图》,该路线图明确定义了到 2025 年 的云愿景和战略成果,提供了建立国防云的实施路径,大力推动云 12 月份先后更新和发布 了其“数字政府”战略和首个《2023-2025 年数据战略》,将通过统 一的云计算架构和基础设施提升数据应用价值和安全性。 日本发布多个计划,积极推动云计算在政务领域的深度应用。 日本政府于 2021 年 9 月份成立数字厅,同年 10 月开始导入政府云 服务,计划于 2025 年之前构建所有中央机关和地方自治团体能共享 行政数据的云服务,2026 年 3 月份前实现全国各市町村的基础设施0 码力 | 47 页 | 1.22 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达等多种不同的数据源进行查询。它支持基于密码的认证、LDAP 和 OAuth 的身份验证机制,同时具备在 catalog、 schema 和 table 级别授予权限和访问控制的能力。我们的团队根据可视化、报告或机器学习用例等消费模式, 使用资源组进行管理和限制资源分配。基于 JMX 的监控提供了丰富的指标集,帮助实现在查询或用户级别进行 成本分配。我们的团队将 Trino 用作跨各种数据源的数据访问网关,当涉及到查询极大规模的数据时,Trino 以及基于 Web 的界面提供对 OpenAI 的 GPT-4、GPT-35-Turbo 和嵌入模型的访问。这些模型可以适应如内容生成、汇总、语义搜索和自然语言到代码 的转换的任务,也可以通过少量学习和超参数的定制进行微调。与 OpenAI 自己的 API 相比,Azure OpenAI 服 务受益于 Azure 企业级的安全性和合规性,同时也在更多的区域可用,哪怕每个较大的地理区域的可用性是有 devcontainer.json。 55. DX DevEx 360 试验 DX DevEx 360 是一款基于调查的工具,它通过聚焦开发人员在日常工作中面临的阻力点,如代码审查流程、代 码质量、深度工作能力等,寻找提高开发人员生产力的关键指标。该调查由 Nicole Forsgren 和 Margaret-Anne Storey 制定,他们曾和其他专家一并主导了 DORA 和 SPACE 两个项目。0 码力 | 43 页 | 2.76 MB | 1 年前3
石油巨头与Kubernetes, Microservice & DevOps 共舞1114最终版壁垒,交付过程标准化, 透明化 持续构建与测试 保障代码质量,提升开发效率 知识共享 知识共享与积累,不断完善,持 续学习改进 认证与改进 持续优化, 形成闭环 运维监控 运⾏状态可视化,数据化,降低 部署⻛险,快速反馈 运营统计 全链路指标统计,为持续改进提 供数据⽀撑 学习培训 保障平台使⽤效果,快速实践落 地 DEVOPS⼯具 DEVOPS体系构成 企业级DEVOPS全景图 流⽔线建设 规范 敏捷开发 规范 流程协作与最 佳实践 项⺫管理 进度 管理 范围 管理 质量 管理 ⼈⼒ 管理 ⻛险 管理 沟通 管理 知识共享 知识 库建 设 ⽂档 协作 学习培训体系 培训规划建设 平台培训 ⼯具培训 培训效果评估 LAB 环境建设 标准案例建设 知识库建设培训 成熟度评审 度量驱动改进 认证与改进体系 已选⽤⼯具 JIRA Confluen DevOps 工具链集成与编排 • 覆盖应用全生命周期管理 • DevOps 工具一键部署,集成 • 平台与工具用户打通(SSO) • 平台与工具权限打通 • 平台与工具租户联动 • 平台与工具深度集成 • 容器化持续集成与交付 平台管理员 租户管理员 • 部署或导入集群 • 创建租户 • 指定租户管理员 • 将集群资源分配给租户 • 部署或集成 DevOps 工具 • 创建工具资源0 码力 | 33 页 | 7.49 MB | 1 年前3
202106 KubeOperator:开源的轻量级 Kubernetes 发行版
节点分布在不不同的故障域 简单易易⽤用 通过 Web UI 来管理理和运营 K8S 集群 离线⽀支持 ⽀支持离线环境下的 K8S 集群 的部署与升级 GPU ⽀支持 轻松运⾏行行机器器学习、⾼高性能 计算等⼯工作负载 DIY ⽅方式 VS. 采纳 KubeOperator 3 个⽉月 + 5 ⼈人 + 500 ⼈人天 + 4 ⼩小时 1 个⼈人 0 ⼈人天 从⼊入⻔门到运⾏行行⽣生产级别的应⽤用 应⽤用商店 提供 GitLab、Jenkins、Harbor、Argo CD、Sonarqube 等 CI/CD ⼯工具;提供 Kuboard、Weave Scope、Redmine 等管理理⼯工具;提供深度学习AI 应⽤用,⽐比如 TensorFlow。 KubeOperator 企业版⽀支持服务内容 ⽀支持服务 7×24 ⼯工单及电话⽀支持服务,1 个⼩小时内响应客户⼯工单;接到故障申报后,⼯工程师通过电话⽀支持、远程接0 码力 | 20 页 | 1.62 MB | 1 年前3
Kubernetes for Edge Computing across
Inter-Continental Haier Production SitesGateway 负载均衡 应用编排 日志监控 告警 服务发现 API 业务中台 多租户管理 运维中台 云端操作系统 数据中台 面向数据与智能 数据管理 大数据 机器学习 资源管理 深度学习 AI工具 API IOT中台 面向行业解 决方案 边缘计算 数据通道 数据分析 API 海尔工业互联网 - 微服务之框架支持 Netflix Config Server0 码力 | 33 页 | 4.41 MB | 1 年前3
Kubernetes全栈容器技术剖析排,无状态/ 有状态应用模型等能力; • 可纳管最新的Windows 1709系统,支持启动Windows Native容 器。 12 CCE支持GPU异构计算能力,帮助企业高效灵活应用深度学习服务 • 将旧的加速计算应用程序容器化,并部署 在较新的系统或者云环境中。 • 将特定的 GPU 资源分配给容器,以获得 更好的隔离效果和性能。 • 轻松地跨不同的环境共享应用程序、协同0 码力 | 26 页 | 3.29 MB | 1 年前3
共 26 条
- 1
- 2
- 3













