GPU Resource Management On JDOS提供基于 kubeflow 的分布式训练方案 – 界面化操作,用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像,不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源,提高 GPU 利用率 – Job 调度 (部门 quota 限制 用户选择集群提供代码地址和执行命令即可 – 选择所用框架(镜像):支持官方,亦可自制 (提供 dockerfile 生成镜像服务) – 选择存储来源:对接了内部的存储 – 填写代码地址,执行的命令等 – 可以选择是否监控训练,提供 tensorboard 任务列表 可以指定 git 的 commit-id 发起任务 任务详情 可以查看具体的容器列表,以及查看容器的日志和事件 Serving 服务 提供统一便捷的 用户只需要简单选择机房和 镜像填写模型名即可完成 Serving 服务创建 自有模型 • 用户只需要填写模型地址即 可 GPU 监控 • 容器监控服务,自适 应 GPU 容器,可根据 容器 IP 查询记录 , 便 于用户查看服务状态 ,亦可作为 HPA 的数 据源 • 采集项 name,index,fan.speed,te mperature.gpu,pstate,po wer.draw,power0 码力 | 11 页 | 13.40 MB | 1 年前3
2022 Apache Ozone 的最近进展和实践分享Ozone – 数据服务的核⼼设计 1. OM – 管理Ozone的Namespace ,也使⽤了RocksDB 2. SCM – 管理Ozone集群和数据 3. Recon Server – 监控Ozone集群 4. DataNode – 负责存储和汇报Storage Containers 5. Storage Containers – Ozone的存储单元,内置有RocksDB 数据库 OTHER WORKLOADS OTHER WORKLOADS X • 可⽤于承载实时和批处理的业务 • 扩展性提升 • ⽆需改变或改造业务应⽤代码 • 降低控制平⾯的节点数和服务依赖 业务价值 • 降低⼤规模集群的运维难度 • 可通过HDFS API和Distcp进⾏快速迁移 • 降低系统恢复时间 • 尽可能的减少NN Java GC带来的⽆ 响应问题 运维价值 “/vol-1/buck-1/dir1/dir2/dir3/file-1” ● LEGACY: 所有已存在的桶,升级后变成LEGACY 版本,以⽀持向后兼容 存储Key格式基本同OBS, 通过配置项区分偏向⽂件,还是偏向S3对象的⽀持 引⼊Bucket级别 OM Metadata Layout 版本号 ⽂件系统优化 ⽂件系统优化效果 Query Details: Dropped “catelog_sales”0 码力 | 35 页 | 2.57 MB | 1 年前3
Ubuntu 桌面培训 2010. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486 XI.II.II 无法连接互联网的环境中,如何下载多个软件,并解 决依赖关系? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 目录 9 Ubuntu . . . . . . . . . . . . . . . . . . . . . . . . . 496 XI.VI.I 我重新安装了 Windows,可是启动时却找不到 Ubuntu 的启动项了? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496 10 目录 Lucid Lynx XI.VI.II 常用的几种 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240 V.15 参与一项比赛 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .0 码力 | 540 页 | 26.26 MB | 1 年前3
RocketMQ v3.2.4 开发指南项目只维护核心功能,丏去除了所有其他运行时依赖,核心功能最 简化。每个 BU 的个性化需求都在 RocketMQ 项目乀上迕行深度定制。RocketMQ 吐其他 BU 提供的仁仁是 Jar 包,例如要定制一个 Broker,那举只需要依赖 rocketmq-broker 返个 jar 包即可,可通过 API 迕行交互, 如果定制 client,则依赖 rocketmq-client 返个 jar 要有一台机器丌可用,则整个集群都丌可用,服务可用性大大降低。 如果服务器部署为同步双写模式,此缺陷可通过备机自劢切换为主避免,丌过仍然会存在几分钟的服务丌 可用。(依赖同步双写,主备自劢切换,自劢切换功能目前迓未实现) 目前已知的应用只有数据库 binlog 同步强依赖严格顺序消息,其他应用绝大部分都可以容忍短暂乱序,推 荐使用普通的顺序消息。 Message Queue 项目开源主页:https://github cpu、主板、内存等关键设备损坏) (6). 磁盘设备损坏。 (1)、(2)、(3)、(4)四种情冴都属亍硬件资源可立即恢复情冴,RocketMQ 在返四种情冴下能保证消息丌丢,戒 者丢失少量数据(依赖刷盘方式是同步迓是异步)。 (5)、(6)属亍单点故障,丏无法恢复,一旦収生,在此单点上的消息全部丢失。RocketMQ 在返两种情冴下,通 过异步复制,可保证 99%的消息丌丢,但是仍然会有0 码力 | 52 页 | 1.61 MB | 1 年前3
清华大学 DeepSeek 从入门到精通发散性任务(如诗歌创作) 需要严格逻辑链的任务(如数学证明) 性能本质 专精于逻辑密度高的任务 擅长多样性高的任务 强弱判断 并非全面更强,仅在其训练目标领域显著优于通用模型 通用场景更灵活,但专项任务需依赖提示语补偿能力 • 例如:GPT-3、GPT-4(OpenAI),BERT(Google),主要用于语言生成、语言理解、文本分类、翻译 等任务。 快思慢想:效能兼顾 全局视野 概率预测(快速反应模型,如ChatGPT 响应速度快,算力成本低 慢速思考,算力成本高 运算原理 基于概率预测,通过大量数据训练来快速预测可能 的答案 基于链式思维(Chain-of-Thought),逐步推理 问题的每个步骤来得到答案 决策能力 依赖预设算法和规则进行决策 能够自主分析情况,实时做出决策 创造力 限于模式识别和优化,缺乏真正的创新能力 能够生成新的创意和解决方案,具备创新能力 人机互动能力 按照预设脚本响应,较难理解人类情感和意图 需求(因其已内化推理逻辑)。 • 无需逐步指导,模型自动生成结构化 推理过程(若强行拆解步骤,反而可 能限制其能力)。 • 需显式引导推理步骤(如通过CoT提 示),否则可能跳过关键逻辑。 • 依赖提示语补偿能力短板(如要求分 步思考、提供示例)。 关键原则 3 2 1 模型选择 • 优先根据任务类型而非模型热度选择(如数学任务选推理模型,创意任务选通用 模型)。 提示语设计0 码力 | 103 页 | 5.40 MB | 9 月前3
Kubernetes Operator 实践 - MySQL容器化Kafka Zookeeper etcd AppEngine(Resin/Tomcat…) 统一服 务管理 Kubernetes 模板管理 自动化测试 部署中心 服务发现 灰度发布 监控中心 日志系统 PaaS SaaS 编 译 发 布 授 权 监 控 IaaS Registry SOA服务框架 DevOps 测 试 账户 搜狗商业平台基础平台 物料 计费 local_address • group_seeds • bootstrap_group MGR 在 operator 的实现 部署 • Operator 在 pod 启动前注入 MGR 参数 故障迁移 • 依赖 statefulset 自愈 扩缩容 • 直接使用 statefulset 扩缩容 MySQL 容器化系统架构 REST CLI Kubernetes Master API Server0 码力 | 42 页 | 4.77 MB | 1 年前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单预测交通拥堵,为城市规划提供决策支持。 • 交互式数据可视化:在商业智能和数据 分析领域,o3mini可以将多维数据以可视化 的方式呈现,并支持用户进行交互式分析。 • 实时数据可视化与预警:在实时监控和 数据分析中,o3mini可以实时将数据以可视 化的方式展示,并支持用户与数据进行交互。 二 要怎么做? 撰写文章标题指令 指令:我想让您担任学术期刊编辑,我将向您提供一份手稿摘要,您将向我提供 正 DeepSeek R1 的核心突破在于其通过强化学习驱动的推理能力。该 模型在训练过程中,通过强化学习技术,显著提升模型的推理能力, 使其在数学、编程和自然语言推理等任务上表现出色。 传统依赖: 大规模监督微调(SFT) 创新思路: 强化学习(RL)驱动 推理效率 • 长思维链支持:DeepSeek R1 支持长链推理,能够生成数万字的 思维链,显著提高复杂任务的推理准确性,其长链推理能力在数学、 多模块协同,逐步执行复杂任务 单输入文本生成输出,处理单一任务 研究能力 处理复杂学术、法律、市场研究,支持多轮分析 生成创意内容,提供建议,适度推理分析 输入输出格式 支持图像、PDF等多种格式输入输出 主要依赖文本输入输出 模块协作 多个模块协同工作(探索者、整合者、推理者等) 单一模型,无模块化协作 DeepResearch 探索者 整合者 思考者 表达者 技术协同:多步推理,快速输出 DeepResearch能迅速梳理海量文献,0 码力 | 85 页 | 8.31 MB | 8 月前3
基于 KUBERNETES 的 容器器 + AI 平台单『默认仓 库』,多仓库集成 管理理集群和节点 • 技术概览 • cloud provider • custom resource • ansible 管理理镜像仓库 • Cargo (内部项⽬目)- ⽣生产级镜像仓库解决⽅方案,基于 • ⼀一键⾼高可⽤用部署和维护 • 为多租户和复杂权限集成⽽而增强 『token service』 • 管理理基于规则的镜像仓库 • 其他企业需要的优化功能 kubernetes 运⾏行行和构建应⽤用 跑在 KUBERNETES 上的应⽤用 • k8s 基础资源之外 • 资源分组和整体状态 • 重⽤用 YAML 配置 • 版本化 • 启动依赖 • Helm 很棒,但是 …… 典型企业应⽤用的架构 CAICLOUD/RUDDER • 2 CRDs - Release, Release History • 1 控制器器 - Rudder0 码力 | 19 页 | 3.55 MB | 1 年前3
Apache Pulsar,云原生时代的消息平台 - 翟佳
Apache Pulsar 云原⽣时代的消息平台 翟佳 streamnative.io ⾃我介绍 • 开源项⽬爱好者: • Apache Pulsar PMC成员 • Apache BookKeeper PMC成员 • EMC -> StreamNative • 华中科⼤ -> 中科院计算所 • Pulsar 的根本不同 • Apache Pulsar 简介 • Pulsar 要解决的问题 • 企业需求和数据规模 • 多租户 - 百万Topics - 低延时 - 持久化 - 跨地域复制 • 解除存储计算耦合 • 运维痛点:替换机器、服务扩容、数据 rebalance • 减少⽂件系统依赖 • 性能难保障: 持久化(fsync)、⼀致性(ack: all)、多Topic • IO不隔离:消费者读Backlog的时候会影响其他⽣产者和消费者 streamnative.io Apache0 码力 | 39 页 | 12.71 MB | 6 月前0.03
MySQL高可用 - 多种方案...................................................................................... 19 4.5.8 监控方案 ................................................................................................ ....................................................................... 25 5.5.9 Heartbeat+DRBD 监控 .................................................................................... 25 6 MMM 高可用 ............................................................................... 30 6.5.6 MMM 架构的监控 .............................................................................................. 300 码力 | 31 页 | 874.28 KB | 1 年前3
共 13 条
- 1
- 2













