openEuler 24.03 LTS 技术白皮书
CANN 或 NVIDIA 的 CUDA 软件。 • AI 框架镜像:以 SDK 镜像为基础,安装 AI 框架软件,如 PyTorch 或 TensorFlow。 • 模型应用镜像:在 AI 框架镜像的基础上,包含完整的工具链和模型应用。 相关使用方式请参考 openEuler AI 容器镜像用户指南。 openEuler 使能 AI,向用户提供更多 OS 选择。基于 openEuler 的 AI 等应用的开发和调试。同时, 可在该类容器中运行高性能计算任务,例如大规模数据处理、并行计算等。 • AI 框架镜像:用户可直接在该类容器中进行 AI 模型开发、训练及推理等任务。 • 模型应用镜像:已预置完整的 AI 软件栈和特定的模型,用户可根据自身需求选择相应的模型应用镜像来开展模型推理或微调 任务。 应用场景 场景创新 12 openEuler 24.03 LTS 技术白皮书 EulerCopilot 相关使用方式请参考 EulerCopilot 智能问答服务使用指南。 EulerCopilot- 智能问答 功能描述 应用场景 当前,openEuler 和 AI 深度结合,一方面使用基础大模型,基于大量 openEuler 操作系统的代码和数据,训练出 EulerCopilot, 初步实现代码辅助生成、智能问题智能分析、系统辅助运维等功能,让 openEuler 更智能。 AI for0 码力 | 45 页 | 6.18 MB | 1 年前3openEuler 23.09 技术白皮书
HBM)中以提高计算速度。加速器厂商们也不可避免地需要开发复杂的内存管理系统。 现行加速器内存管理方案存在诸多缺陷: • CPU 侧内存管理与加速器侧分离,数据显式搬移,加速器内存管理的易用性和性能难以平衡。 • 大模型场景下加速器设备 HBM 内存(Hign BandWidth Memory)严重不足,现有的手动 swap 方案性能损耗大且 通用性差。 • 搜推、大数据场景存在大量无效数据搬移,缺少高效内存池化方案。 前上限为 CPU 的 DRAM 容量)。GMEM 将较冷的设备内存页换出到 CPU 内存上,拓展了应用处理的问题规模,实现高性能、低门槛训推。 通过 GMEM 提供的极简异构内存管理框架,在超大模型训练中,GMEM 性能领先 NVIDIA-UVM。随着内存使用量增长,领 先比例不断提升,在超分两倍以上时可领先 NVIDIA-UVM 60% 以上。(数据基于 NPU-Ascend910 与 GPU-A100 访问时,通过内核缺页流程即可将待访问内存在主 机与加速器进行搬移。在实际使用时,加速器可在内存不足时可以借用主机内存,同时回收加速器内的冷内存,达到内存 超分的效果,突破模型参数受限于加速器内存的限制,实现低成本的大模型训练。 通过在内核中提供 GMEM 高层 API,允许加速器驱动通过注册 GMEM 规范所定义的 MMU 函数直接获取内存管理功能, 建立逻辑页表并进行内存超分。逻辑页表将内存管理的高层逻辑与0 码力 | 52 页 | 5.25 MB | 1 年前3openEuler 22.03 LTS SP2 技术白皮书
优先级负载均衡特性 负载均衡 FIFO 任务迁移队列不区分优先级,无法解决跨核迁移抢占保障高优先级,特别是 CPU 敏感型任务的优先调 度,针对在线、离线容器混部场景下,CFS 负载均衡需要提出一种优先级队列模型,支持高低优先级的 QoS 负载均衡,确 保在线业务能更快得到调度和执行,最大化压制离线任务的 QoS 干扰,提高整机 CPU 资源利用率。 混部场景中,开启了 CPU QoS 优先级负载均衡特性,需要将 混部的核心技术是资源隔离控制。 业务可根据时延敏感性分为高优先级业务和低优先级业务,将业务区分优先级混合部署以提高资源利用率。高优先级 虚拟机业务推荐:时延敏感类业务,如 web 服务、高性能数据库、实时渲染、机器学习推理等。低优先级虚拟机业务推荐: 非时延敏感类业务,如视频编码、大数据处理、离线渲染、机器学习训练等。 应用场景 版本功能如下: • 集群调度增强:增强 OpenStack 等基准测试中性能大幅优于上游社区的 GCC 10.3 版本。 • 支持 mcmodel=medium、fp-model、四精度浮点、矢量化数学库等功能。 • 支持自动反馈优化特性,实现应用层 MySQL 数据库等场景性能大幅提升。 • 多版本 GCC 共存支持:提供以 GCC 12.2.0 为基线的 gcc-toolset-12 系列软件包,支持 Intel SPR 相关特性。 • 本次新增支持内核反馈优化特性。通过增强内核与0 码力 | 48 页 | 5.62 MB | 1 年前3openEuler 21.03 技术白皮书
数据读写压力的方法。准确的检测方法可以帮资 源使用者确定合适的工作量,帮助系统制定高效 的资源调度策略,最大化利用系统资源,改善用 户体验。 8. TCP 发包切换到了 Early Departure Time 模型: 解决原来 TCP 框架的限制,根据调度策略给数据 包设置 Early Departure Time 时间戳,避免大的 队列缓存带来的时延,同时大幅提升 TCP 性能。 9. 支持 MultiPath 断,对用户不友好,利用内核 热升级,可以让客户无感知的情况下对引入新的内核特性。 内存分层扩展 etMem 当前内存制造工艺已经达到瓶颈,Arm 生态发展让每个 CPU 核的成本越来越低。数据库、虚拟机、大数据、人工智能、 深度学习场景同时需要算力和内存的支持。内存容量成为了制约业务和算力的问题。 内存分层扩展通过 DRAM 和低速内存介质,如 SCM、AEP 等形成多级内存,通过内存自动调度让热数据在 内存访问效率。 • IO 子系统增强:支持多通道并发 IO 能力,提高 IO 性能。支持 IO-QOS 能力,提升虚拟机 IO 流量管理的灵活性和 稳定性。 • 系统调用过滤:通过极简设备模型设计和 SECOMP 过滤系统调用,最简配置下仅需使用 35 个系统调用,有效减小 系统攻击面。 更多详细内容请参考 openEuler 20.09 技术白皮书:https://openeuler0 码力 | 18 页 | 1.30 MB | 1 年前3高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏
务自动化、工具化、可视化。 数据驱动运维:基于大数据 的接入、存储、分析技术,对运 维数据进行全面挖掘和分析,实 现数据驱动自动化运维。 机器驱动运维:基于智能算法 的机器自我学习,训练机器智能运 维模型,实现无人值守和智能的运 维与运营。 数据化 2015--2017 智能化 2017—现在 蓝鲸目前在腾讯应用情况及发展方向 4个转型的绊脚石 有重客户端游戏,网页游戏,各类官网,移动终端游戏, 端游戏, 大型游戏平台; 平铺式架构,拓扑关系复杂,模块数量上百,服务器数量 几千…… 腾讯游戏300多款业务中,大多数是由世界各地开发商开发 出来。 所使用的开发语言、开发框架、操作系统、数据库等技术, 是没有直观规律的。 开发商很难为了运维体系而对架构或技术做大规模的修改。 有几乎所有的业务类型 有几乎所有的流行技术 300多款游戏相互之间是没有关系的。 发布变更、故障处理等运维操作场景和操作流程是没有直 CMP 跨系统编排 与调度 运行监控和故障管理 第三方监控接入 基础监控 采集 存储 检测 告警 故障自愈 蓝鲸平台 管控平台 PaaS平台:开发框架/API集成 统一配置管理 模型定义 自动采集 配置维护 拓扑视图 配置消费 统一运维门户 可视化大屏、统一报表、统一权限、移动运维 变更 流程融合 事件 问题 请求 知识库 SLA 服务目录 流程引擎 运维流程管理0 码力 | 26 页 | 8.25 MB | 1 年前3openEuler 22.03-LTS 技术白皮书
边缘数据服务:通过边缘数据服务实现消息、数据、媒体流的按需持久化,并具备数据分析和数据导出的能力。 4. 边云智能协同架构(Sedna):基于开源 Sedna 框架,提供基础的边云协同推理、联邦学习、增量学习等能力,并 实现了基础的模型管理、数据集管理等,使能开发者快速开发边云 AI 协同特性,以及提升用户边云 AI 特性的训练 与部署效率。 应用场景 可应用智能制造、城市交通、高速收费稽查、智慧加油站、医疗影像识别、智慧园区等广泛的边云协同场景。 贝复用,提升跨主机和设备业务通讯性能。 • MPAM 增强:支持外部接口自定义配置分区 rmid,支持 MPAM 设备节点通过 device tree 配置启动,可用于虚拟化 等场景。 • TCP 压缩特性:hbase 等分布式数据库节点间数据传输量大,网络传输是性能瓶颈;在 TCP 层对指定端口的数据进 行压缩后再传输,收包侧把数据解压后再传给用户态,从而提升分布式场景节点间数据传输的效率。 • 支持 SGX 特性:SGX osnoise tracer:osnoise tracer 支持分析系统噪声对业务线程的干扰,可以清晰的找出干扰源。 内存分级扩展 当前内存制造工艺已经达到瓶颈,生态发展让每个 CPU 核的成本越来越低。数据库、虚拟机、大数据、人工智能、深 度学习场景同时需要算力和内存的支持。内存容量成为了制约业务和算力的问题。 内存分级扩展通过 DRAM 和低速内存介质,如 SCM、AEP,以及 RDMA 远端内存等形成多级内存,通过内存自动调度0 码力 | 17 页 | 6.52 MB | 1 年前3openEuler 21.09 技术白皮书
等文件系统,满足单机应用、云原生分布式应用高性能 数据存储诉求。 openEuler 21.09 技术白皮书 12 内存分级扩展 当前内存制造工艺已经达到瓶颈,Arm 生态发展让每个 CPU 核的成本越来越低。数据库、虚拟机、大数据、人工智能、 深度学习场景同时需要算力和内存的支持。内存容量成为了制约业务和算力的问题。 内存分扩展通过 DRAM 和低速内存介质,如 SCM、AEP ,以及 RDMA 远端内存等形成多级内存,通过内存自动调度让 统一集群化部署、监控、审计等场景。 安全容器 StratoVirt: 1. 强安全性:基于 Rust 实现语言级安全,模块按需组合最小化攻击面,支持多租户物理隔离。 2. 轻量低噪:采用极简设备模型时,启动时间小于 50ms,内存底噪小于 4M。 3. 软硬协同:支持 x86 的 VT,支持鲲鹏的 Kunpeng-V。 4. 极速伸缩:毫秒级设备扩缩能力,为轻量化负载提供灵活的资源伸缩能力。 边缘数据服务:通过边缘数据服务实现消息、数据、媒体流的按需持久化,并具备数据分析和数据导出的能力 4. 边云智能协同架构(Sedna):基于开源 sedna 框架,提供基础的边云协同推理、联邦学习、增量学习等能力, 并实现了基础的模型管理、数据集管理等,使能开发者快速开发边云 AI 协同特性,以及提升用户边云 AI 特性的 训练与部署效率。 应用场景 可应用智能制造、城市交通、高速收费稽查、智慧加油站、医疗影像识别、智慧园区等广泛的边云协同场景。0 码力 | 35 页 | 3.72 MB | 1 年前3openEuler 22.09 技术白皮书
函数的生命周期管理 • 兼容 OCI 格式容器镜像,管理本地函数镜像资源 2. Wasm 轻量级协程调度框架 抽象 Wasm 实例执行上下文,支持轻量级高性能的用户态协程调度模型,并支持 JIT/AOT 多种 Wasm 实例执行模型。 应用场景 适用于按需启动短时间运行时的无状态 FaaS 函数任务,例如在 CDN 边缘计算场景下,可以部署客户自定义实现的请求 预处理函数,实现按需拉取、快速响应。 拓扑时的可见范围 2. 用户态工具部分 用户态工具提供的功能,是对接内核态上述功能提供的 sysfs 接口供用户使用,将目标应用运行在指定的隔离 CPU 上。 HPC 业务特征大部分符合 BSP 模型 (Bulk Synchronous Parallel Computing):并行计算 + 通信 + 同步。系统噪声对这 类业务特征有较大性能影响。系统噪声指的是业务运行中执行的非应用计算任务,包括:系统 平台上业务平稳运行的轻薄的保护层。 StratoVirt 主要优势如下: • 强安全性:基于 Rust 实现语言级安全,模块按需组合最小化攻击面,支持多租户物理隔离。 • 轻量低噪:采用极简设备模型时,启动时间小于 50ms,内存底噪小于 4M。 • 软硬协同:支持 x86 的 VT,支持鲲鹏的 Kunpeng-V。 • 极速伸缩:毫秒级设备扩缩能力,为轻量化负载提供灵活的资源伸缩能力。0 码力 | 13 页 | 1.39 MB | 1 年前3Zabbix 6.0 Manual
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1721 12 数据库错误处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vladishev 创建,目前由 Zabbix SIA 主导开发和支持。 Zabbix 是一个企业级的开源分布式监控解决方案。 Zabbix 是一款监控网络的众多参数以及服务器、虚拟机、应用程序、服务、数据库、网站、云等的健康和完整性的软件。Zabbix 使用灵活 的通知机制,允许用户为几乎任何事件配置基于电子邮件的告警,以实现对服务器问题做出快速反应。Zabbix 基于存储的数据提供出色 的报告和数据可视化功能。这使得 ware 监控 • 自定义检查 • 以自定义间隔收集所需数据 • 由 server/proxy 和 agents 执行 灵活的阈值定义 • 可以定义非常灵活的问题阈值,称为触发器,从后端数据库引用值 高度可配置的告警 • 可以针对升级计划、收件人、媒体类型自定义发送通知 • 使用宏可以使通知变得有意义和有用 • 自动化操作包括执行远程命令 实时图形 • 采集到的监控项值可以使用内置的绘图功能立即绘图0 码力 | 1741 页 | 22.78 MB | 1 年前3Curve核心组件之Client - 网易数帆
e 核 心 组 件 之 C l i e n t 吴汉卿CURVE CURVE是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟存储底座 • 可扩展存储场景:块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储,对接 OpenStack 和 k8s • 网易内部线上无故障稳定运行400+天 • 已开源 • github主页: https://opencurve.github 将请求发往leader节点CLIENT IO线程模型 用户线程 1. 用户调用接口,发起IO请求 2. AioWrite将请求封装成io task并放入任务队列 3. 放入任务队列后,异步请求发起成功,返回用户 IO拆分线程 4. 从任务队列取出任务后进行拆分 5. 拆分过程依赖元数据,可能会通过MDSClient向 MDS获取 6. 拆分成的子请求放入队列CLIENT IO线程模型 IO分发线程 70 码力 | 27 页 | 1.57 MB | 5 月前3
共 105 条
- 1
- 2
- 3
- 4
- 5
- 6
- 11