全球架构师峰会2019北京/大数据/Kubernetes 运行大数据工作负载的探索和实践&mdashKubernetes 运行大数据工作负 载的探索和实践 Leibo Wang(wang.platform@Hotmail.com) Huawei CloudBU Principal Engineer 王雷博 Principal Software Engineer • Huawei(Now) - Cloud Native batch system (Volcano) development0 码力 | 25 页 | 3.84 MB | 1 年前3
高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰等多个项目的发起人 • 背景介绍 • 设计思路 • 性能优化 • 落地效果 • 未来演进 背景 • Kubernetes 规模增大 10 倍以上 公司业务快速发展 存储、大数据、机器学习等场景云原生化 • 新场景对 Kubernetes 性能要求更高 离线场景,Pod 生命周期短、变更频率高 如何扩展 Kubernetes 集群 单个集群规模垂直扩展 多个集群横向扩展 事务 • 支持 CAS • 支持快照读 • 高性能 存储层 - 数据格式 etcd KubeBrain 能否使用类似的格式? 1. 否 2. 底层存储引擎全局有序,有写热点那问题 Etcd 以 Revision 为 Key 内存 Btree 索引维护 key 和 revision 的映射关系 存储层 - 数据格式 KubeBrain 逻辑层 逻辑层 – 写 逻辑层 – Watch(1) 仅主节点负责写入和事件生成 2. 从节点只读 逻辑层 – Watch(3) • Master 内存中保留最近写入的 事件 • 写入滑动窗口记录并发写操作的 结果 • 消费滑动窗口中的数据实现有序 的 Event 推送 • 当前消费的最大位置为 Brain 层 的 Committed Index,与 快照 读有关 逻辑层 – 单 Key 读 逻辑层 – Range 读 逻辑层0 码力 | 60 页 | 8.02 MB | 1 年前3
sealos 以 kubernetes 为内核的云操作系统sealer 作 者 环界云计算创始人 公司代表作品: Sealos 云操作系统 Laf 函数计算 FastGPT AI 知识库 Sealos 介绍 以 kubernetes 为内核的云操作系统 整个数据中心抽象成一台服务器,一切皆应用,让用云像用个人电脑一样简单! Kubernetes是云操作系统内核,整个集群是一个整体 Sealos是云操作系统发行版本 Linux发行版,如redhat Linux 驱动层实现资源抽象 自由切换,到处运行 Sealos API Sealos CLI Desktop 裸金属 AWS 阿里云 更多······ boot 集群镜像 租户管理 应用管理 函数计算 消息队列 数据库 缓存 计算驱动 网络驱动 存储驱动 自由组装 内聚解耦 化整为零 大道至简 sealos 的能力 • 10 秒上线一个自带域名和 https 的 nginx 应用 • 其它应用同理如博客系统 支持共享与协作 • 20 秒启动高可用 mysql/pgsql/mongo/redis 数据 库 • 写代码像写博客一样简单 • AI 自动编码,毫秒级上线,0 运 维 数据库管理 mysql/pgsql/mongo/ redis 等多种数据库 数据库多主架构高 可用 数据库备份恢复, 故障自愈 数据库管理工具, 监控告警 Userlnterface API/CLI/GUI Cilium0 码力 | 29 页 | 7.64 MB | 10 月前3
运维上海2017-分布式数据库系统TiDB在Kubernetes平台的自动化运维实践-邓栓0 码力 | 32 页 | 3.47 MB | 1 年前3
DaoCloud Enterprise 5.0
产品介绍帮助您洞察集群、节点、应用和服务的详细指标,并通 过动态仪表盘和拓扑大图可视化掌握应用健康状态。 DCE 5.0 原生支持 DevOps 开发运维模式,可以实现应用交付的全流程标准化 和自动化,并集成各类精选数据库和中间件,使运维治理更加高效。各个产品 模块独立解耦,支持灵活升级,对业务没有影响,并且能够与众多云原生生态 产品对接,提供完整的解决方案体系。 它经过了近千家行业客户的生产场景检 验,构建了坚实 、信创异构 中间件服务 专为有状态应用设计的云原生本地存储能力,满足中间件高 I/O 的存储需求,提升运 维管理效率。精选各类数据库、分布式消息和日志检索等中间件,提供多租户、部 署、观测、备份、运维操作等全生命周期的中 间件管理能力,实现数据服务的自助化 申请、弹性扩展、高并发处理和稳定高可用。 涉及的模块:全局管理、容器管理、云原生网络、云原生存储、精选中间件 版权 © 2023 等技术手段,全面采集服务数据,深入获取请求链路信 息,动态观测、多维度掌控集群、节点、应用和服务的实时变化,通过统一控制面实 现所有集群及负载观测数据的查询,引入拓扑分析技术可视化掌握应用健康状态,实 现秒级故障定位。 涉及的模块:全局管理、容器管理、可观测性、云原生网络、云原生存储 版权 © 2023 DaoCloud 第 6 页 应用商店 收录来自大数据、AI、中间件等0 码力 | 18 页 | 1.32 MB | 1 年前3
GPU Resource Management On JDOS可,有完善的周边服务 训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作,用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像,不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源,提高 GPU 利用率 – Job 提供统一便捷的 Serving 服务,只需用户指定模型,即可提供 grpc 和 rest 服务,同时使用 GPU 复用 +HPA 提高 GPU 利用率 创建 Serving 与训练集成 • 用户只需要简单选择机房和 镜像填写模型名即可完成 Serving 服务创建 自有模型 • 用户只需要填写模型地址即 可 GPU 监控 • 容器监控服务,自适 应 GPU 容器,可根据 容器 IP 查询记录 , 便 于用户查看服务状态0 码力 | 11 页 | 13.40 MB | 1 年前3
云计算白皮书展和服务模式创新的集中体现,是信息化发展的重大变革和必然趋 势,是信息时代国际竞争的制高点和经济发展新动能的助燃剂。云 计算引发了软件开发部署模式的创新,成为承载各类应用的关键基 础设施,并为大数据、物联网、人工智能等新兴领域的发展提供基 础支撑。加快推动云计算创新发展,顺应新一轮科技革命和产业变 革趋势,是推进中国式现代化进程的关键。 过去一年,全球和我国云计算产业保持快速发展,并呈现出以 四、云计算加速催生算力服务新范式..................................................................... 32 (一)架构方面,云计算支撑算力服务以数据为中心.................................. 32 (二)功能方面,云计算持续驱动算力服务创新发展.................................. 济、军事、科技等方面的领先地位。2021 年 5 月,美国国防部公布 美国本土以外(OCONUS)的战术边缘云战略,明确提出将通过云 战略获取全球优势。美国国立卫生研究院(NIH)表示将在 2023 年 实施新的数据管理政策,促进更多的研究人员使用云计算。此外, 美国在 2022 年 9 月发布了《国家竞争力面临的十年中期挑战》,其 中提到通过发展云计算等高新科技,健全数字基础设施,以扩大其 在经济、军事、科技等方面的竞争优势。0 码力 | 47 页 | 1.22 MB | 1 年前3
2.2.4 基于Kubernetes的私有云实战未来规划 06 为什么要做私有云? 公司规模扩⼤⾯临的常态问题 • ⾼速增⻓的业务和低下的资源利⽤率 • 需要⾼效的扩缩容和部署效率 • 复杂的业务场景带来了层出不穷的异构机型 • ⾼昂的机房成本投⼊ 公司当前的技术现状 微服务现状 •服务数量暴涨 •资源需求暴涨 •部署效率急需提高 •研发期望独占资源 服务治理现状 •Homebrew microservice •网络延迟几乎与物理机一致 •简单的设计,易掌控 集群方案 一个超大集群还是多个中小集群? 集群方案 •超级部署屏蔽K8S的各类资源 •一个部署调度到多个集群 •业务可自定调度策略 •达到机架、机房、集群级容灾 服务发现方案 •K8S自带的服务发现不可用 •基于Pod事件的服务发现 •现状妥协导致服务发现链路变长 集群失败了 •没有办法操作K8S? •基于假事件的重新调度0 码力 | 47 页 | 10.67 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达小型设备上运行大语言模型,特别是在边缘设备和资源受限的环境中。我们还提到有望提高性能的 ReAct 提示 工程,以及利用大语言模型驱动的自主代理开发远超简单的问答交互的动态应用。我们也提到一些向量数据库 (包括 Pinecone)由于大语言模型而重新流行起来。大语言模型的底层能力,包括更专业化和自行托管的能力, 将继续呈爆发性增长。 远程交付解决方案日臻成熟 尽管远程软件开发团队多年来利 采纳 1. 设计系统 2. 轻量级的 RFCs 方法 试验 3. 具有可访问性意识的组件测试设计 4. 攻击路径分析 5. 自动合并依赖项更新 PR 6. 针对 FAIR 数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模 采纳 1. 设计系统 2. 轻量级的 RFCs 方法 试验 3. 具有可访问性意识的组件测试设计 4. 攻击路径分析 5. 自动合并依赖项更新 PR 6. 针对 FAIR 数据的数据产品思维 7. OIDC for GitHub Actions 8. 使用 Terraform 创建监控和告警 9. ReAct 提示工程 10. 检索增强生成 11. 基于风险的故障建模0 码力 | 43 页 | 2.76 MB | 1 年前3
Alluxio 助力 Kubernetes, 加速云端深度学习Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌 Alluxio 创始成员 背景 硬件 软件 数据 容器化的基础架构 人工智能发展的驱动力 模拟数据训练速度 311.6 7323.84 9993.6 33884.8 0 5000 10000 15000 20000 25000 30000 35000 40000 P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练速度(images/second) 分布式训练/GPU硬件升级加速明显 模拟数据训练时间 108 15.12 4.62 3.39 1 0 20 40 60 80 100 120 P100 (1GPU) P100 (8GPU) P100 (32GPU) V100 8卡 : 157.9元/小时 x 4 = 631.6 元 P100 1卡:12.78 元/小时 x108 = 1380.24 元 数据访问的新挑战 1.强大的算力需要匹配的I/O吞吐 2.计算存储分离导致I/O延迟 3.单机缓存无法满足海量数据加速 9993.6 3189.6 0 2000 4000 6000 8000 10000 12000 Synthetic ESSD云盘0 码力 | 22 页 | 11.79 MB | 1 年前3
共 42 条
- 1
- 2
- 3
- 4
- 5













