运维上海2017-分布式数据库系统TiDB在Kubernetes平台的自动化运维实践-邓栓0 码力 | 32 页 | 3.47 MB | 1 年前3
云计算白皮书工程化运作成为平台产品,平台产品随着组织变化而演进,其各个 组件可根据实际使用情况来升级扩展。这类集成产品通常被称为内 部开发者平台,是工程团队已经部署的技术和工具之上的全新一层。 演进路线方面,容器云平台为开发者构建和运行分布式应用带来了 便利,但同时将复杂资源暴露给了开发者,知识门槛高,并且开发 者难以从众多资源中定位业务故障。而容器云平台及传统 PaaS 等经 过平台工程化,可演进为面向开发者的一站式平台,灵活组合 赋能用云企业,满足企业多样性场景需求,提升企业云管理与优化 治理成效。 稳定性层面,云上系统稳定性挑战持续存在,系统稳定性保障 云计算白皮书(2023 年) 20 体系不断完善、技术不断创新。云上系统自带“分布式”属性,各 模块之间依赖关系错综复杂,给服务性能分析、故障定位、根因分 析等带来了诸多困难;云上系统故障率随设备数量的增加而呈指数 级增长,单一节点问题可能会被无限放大,日常运行过程中一定会 应用的感知、判断和执行。 (一)数字应用方式与算力资源供给的变革,推动云计 算作用转变 人工智能大模型的快速发展,引发数字应用使用方式和算力资 源供给的双向变革,加速了云计算向面向大体量分布式应用体系化、 工程化创新的操作系统演进。 云计算白皮书(2023 年) 27 向下来看,算力资源呈现出计算异构、算网融合的特点。以 GPT-4 为例,其模型训练借助公有云能力在通用 CPU0 码力 | 47 页 | 1.22 MB | 1 年前3
Kubernetes全栈容器技术剖析网络(VPC/EIP) 开源原生 商业增强:控制面HA、跨AZ高可用、滚动升级、裸金属容器 云容器引擎 CCE 微服务引擎 CSE 开源原生 企业级 中间件 分布式 缓存 DCS 分布式 消息 DMS 分布式 数据库 DDM 应用编排引擎 AOS App/PaaS/IaaS 资源一键式创建 应用运维 AOM 应用性能管理 APM 应用拓扑 调用链 SLA指标 更好的隔离效果和性能。 • 轻松地跨不同的环境共享应用程序、协同 工作和测试应用程序。 主流DL框架 13 iCAN容器网络:实现高性能容器网络和大规模高效部署 14 Fuxi容器存储:实现有状态应用和分布式中间件容器化部署 15 全球首发云容器实例服务CCI :更快的弹性,更高的资源利用率 持续发布: 小时级->分钟级 弹性伸缩: 分钟级->秒级 应用交互性能提 升1~2倍 资源利用率提 :更快的弹性,更高的资源利用率;国内首发windows容器、帮助企业实现海量Windows应用轻松容器化上云 自研iCAN容器网络:实现高性能容器网络和大规模高效部署;自研Fuxi容器存储:实现有状态应用和分布式中间件容器化部署 华为CCE产品成熟度高,容器化经验丰富,在大企业、游戏、生物基因、科学计算、金融、媒资、能源、旅游等领域有2+年成熟商用实践 内部实践:流程IT系统、网管系统、消费者云VMAL0 码力 | 26 页 | 3.29 MB | 1 年前3
sealos 以 kubernetes 为内核的云操作系统Mysql/pgsql/mongo CNI CRI CSI DNS Backup Restore 交付类场景 01 整个集群或者分布式应用整 体打包,一键交付 标准化交付产物,而不是靠 操作文档协作 交付者无需关心业务逻辑,一条命令 完成任意分布式高可用应用交付 支持完全离线场景,小白操 作 20min 自动化完成 全国多个 02 交付环境: 各大公有云 不同版本liux发行版 terraform 某些底层 driver 写的不好 云驱动层 01 对接 firecracker cilium openebs 等技术 无性能损失的网络层计量 与隔离 rust 自研分布式文件系统 sealfs 直接对接 rustvmm 绕 开 fuse 02 client manger manger metadata data data metadata metadata 不在磁盘级别提供高可用 所以高可用交给 KB rocketmq 这些应用自身去解决 业务起的有状态容器可用 sealfs 文件系统 sealfs 直接从容器拦截 IO,对接 sealfs 分布式文件系统,避免 fuse 用户态内核态反复横跳 在 Sealos 上使用 GPU 在 Sealos 上利用 Cilium + BPF 实现流量统计 Slide source credit to:0 码力 | 29 页 | 7.64 MB | 9 月前3
第29 期| 2023 年9 月- 技术雷达如何继续以有效协作为重点,不断突破界限,在一个更加分散和动态的环境中进行工作。一些团队利用新的协 作工具不断提出创新解决方案。其他团队则继续调整和改进现有的面对面实践,例如实时结对编程或集体编程、 分布式工作坊(例如 远程事件风暴)以及异步和同步沟通。远程工作提供了许多好处(包括更多样化的人才储 备),但面对面交流的价值是显而易见的。团队不应中断重要的反馈循环,并且需要意识到在转向远程工作时所 做的取舍。 Orca 提供了从开发到生产的安全状态的统一视图,因此我们将其放入试验阶段。 31. Trino 试验 Trino 以前被称之为 PrestoSQL,是一个专为面向大数据交互式分析查询而设计的开源分布式 SQL 查询引擎。经 过优化后,它可以在本地或者云上环境运行,并支持对 Hive、Cassandra、关系型数据库、甚至专有数据存储 等多种不同的数据源进行查询。它支持基于密码的认证、LDAP 可能。 66. Thanos 试验 尽管 Prometheus 一直是自维护可观察性工具链中的一个可靠选择,但当监测指标在基数和总量上增长,以 及开始需要高可用性设置时,许多管理现代云原生分布式系统的团队都会碰到其单节点的限制。Thanos 通 过添加一些适用于大规模、长期和高可用性监控的功能来扩展 Prometheus。例如,它引入了一些组件将从 Prometheus 实例中读取的0 码力 | 43 页 | 2.76 MB | 1 年前3
高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰KubeBrain 架构 Kine KubeBrain KubeBrain 架构 • 主从架构 • 主负责写和事件分发 • 从负责读 • 底层对接分布式强一致性存储 • CAS 事务写 • 快照读 实现架构图 存储层 存储层 – 分布式 KV Store ByteKV • Multi Raft Goup • 全局有序 Range 分区 • 强一致性 • 支持多 key 事务 raft range 分片,增大写并发 Brain 层无磁盘 io,只有网络 io 写优化 - 3 事务优化 精心设计 key 格式 一个 k8s 对象的索引和数据在同一分区内 跨分区分布式事务 -> 分区内单机事务 读优化 - 1 Range 读 Unary -> Stream 代替分页,降低延迟 内存高效复用,避免 OOM 读优化 - 2 多分片并发读 通过并发,大大减少读时延0 码力 | 60 页 | 8.02 MB | 1 年前3
Alluxio 助力 Kubernetes, 加速云端深度学习40000 P100 (1GPU) P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练速度(images/second) 分布式训练/GPU硬件升级加速明显 模拟数据训练时间 108 15.12 4.62 3.39 1 0 20 40 60 80 100 120 P100 (1GPU) P100 (8GPU) 4000 6000 8000 10000 12000 Synthetic ESSD云盘 PL2 RestNet50 模型训练速度 (images/second) 云盘 Alluxio - 分布式缓存的领导者 开源项目由李浩源博士(Alluxio公司CEO)在加州大学Berkeley分校 AMPLab就读期间创立 2013 2015 由硅谷著名投资公司Andreessen Horowitz投资,公司在2015年在 OSS Driver Web Driver Alibaba Cloud OSS Alluxio 服务器 Alluxio 服务器 大数据查询 大数据ETL 模型训练 Alluxio核心功能一:分布式数据缓存 Alluxio 服务器 A B /path1/file1 /path2/file2 C A B C A Alluxio 服务器 Alluxio 服务器 大数据查询 大数据ETL0 码力 | 22 页 | 11.79 MB | 1 年前3
KubeCon2020/微服务技术与实践论坛/Spring Cloud Alibaba 在 Kubernetes 下的微服务治理最佳实践-方剑monoliths-to-microservices 微服务拆分原则 DevOps 服务框架 Dubbo 可观测性 混沌工程 服务治理 Spring Cloud 多语言微服务 API管理 服务压测 分布式事务 分布式调度 API网关 服务注册发现 负载均衡 服务配置 无损下线 服务容错 服务路由 服务鉴权 限流降级 服务元数据 服务测试 服务mock 持续集成 IDE插件 应用监控 链路追踪 1. 新增 Dubbo Spring Cloud 模块 让 Spring Cloud 与 Dubbo 可以互相调用 2. 新增 Seata 模块,让 Spring Cloud 的服务调用拥有分布式事务能力 2019.4 1. 发布 GA 版本 2. Sentinel 成为官方推荐的 Circuit Breaker 实现 2019.7 Spring Cloud Alibaba 毕业0 码力 | 27 页 | 7.10 MB | 1 年前3
GPU Resource Management On JDOS常规的容器服务 ,使用 gpu 的 zone , 自行设定相应的镜像即 可,有完善的周边服务 训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作,用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像,不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态0 码力 | 11 页 | 13.40 MB | 1 年前3
Kubernetes for Edge Computing across
Inter-Continental Haier Production Sites协议适配: • 提供常用协议服务的接入、转换(Dubbo,XML) • 灵活定制化的数据变换 控制能力: • 认证鉴权机制 • 流量控制 • 黑白名单 • 服务路由 可靠高效: • 分布式,高可用 • 高性能,低延迟 • 线性扩容 海尔工业互联网 –微服务之监控日志 Node PrometheusServer(Pod) Retrieval Storage PromQL Local 数据展现方式: • 自开发页面 • Kibana 海尔工业互联网 – 才云数据解决方案 Clever 提交多框架(TensorFlow、PyTorch 、MxNet等)的模型训练作业,支 持分布式和 GPU 加速,以及训练过 程的可视化。 模型训练 模型版本管理,模型推理服务的部署 、监控、管理和升级,提供 A/B test 和滚动升级。 模型服务 实现对 GPU 集群资源进行管理,根0 码力 | 33 页 | 4.41 MB | 1 年前3
共 21 条
- 1
- 2
- 3













