高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰KubeBrain 字节跳动高性能 K8s 元信息存储 许辰 字节跳动资深研发工程师 许 辰 字节跳动基础架构工程师 本科和硕士毕业于北京大学计算机系 负责大规模 Kubernetes 系统的构建和优化 KubeBrain/ KubeGateway/ KubeZoo 等多个项目的发起人 • 背景介绍 • 设计思路 • 性能优化 • 落地效果 • 未来演进 背景 背景 • Kubernetes 规模增大 10 倍以上 公司业务快速发展 存储、大数据、机器学习等场景云原生化 • 新场景对 Kubernetes 性能要求更高 离线场景,Pod 生命周期短、变更频率高 如何扩展 Kubernetes 集群 单个集群规模垂直扩展 多个集群横向扩展 降低运维管理成本 减少资源碎片 提高资源利用率 Kubernetes 的架构特点 K8s 各组件 apiserver 元信息存储 etcd etcd 存在的问题 自研元信息存储 调优 etcd 参数 按照对象拆分 etcd 设计新的元信息存储 … 如何解决存储瓶颈? KubeBrain 1. 大脑 2. 谐音科比 Kobe Bryant • 背景介绍 • 设计思路 • 性能优化 • 落地效果 • 未来演进 K8s 元信息存储的需求 (1) 读0 码力 | 60 页 | 8.02 MB | 1 年前3
Kubernetes日志平台建设最佳实践-元乙0 码力 | 30 页 | 53.00 MB | 1 年前3
全球架构师峰会2019北京/大数据/Kubernetes 运行大数据工作负载的探索和实践&mdashKubernetes 运行大数据工作负 载的探索和实践 Leibo Wang(wang.platform@Hotmail.com) Huawei CloudBU Principal Engineer 王雷博 Principal Software Engineer • Huawei(Now) - Cloud Native batch system (Volcano) development0 码力 | 25 页 | 3.84 MB | 1 年前3
运维上海2017-分布式数据库系统TiDB在Kubernetes平台的自动化运维实践-邓栓0 码力 | 32 页 | 3.47 MB | 1 年前3
云计算白皮书展和服务模式创新的集中体现,是信息化发展的重大变革和必然趋 势,是信息时代国际竞争的制高点和经济发展新动能的助燃剂。云 计算引发了软件开发部署模式的创新,成为承载各类应用的关键基 础设施,并为大数据、物联网、人工智能等新兴领域的发展提供基 础支撑。加快推动云计算创新发展,顺应新一轮科技革命和产业变 革趋势,是推进中国式现代化进程的关键。 过去一年,全球和我国云计算产业保持快速发展,并呈现出以 算力等需求刺激下,市场仍将保持稳定增长,到 2026 年全球云计算 市场将突破万亿美元。2022 年,我国云计算市场规模达 4,550 亿元, 较 2021 年增长 40.91%。相比于全球 19%的增速,我国云计算市场 仍处于快速发展期,预计 2025 年我国云计算整体市场规模将超万亿 元。 三是云计算产业环境日益激烈,新一轮竞争全面开启。全球各 国将云计算看作抢占新一轮科技革命制高点的关键环节。云计算巨 四、云计算加速催生算力服务新范式..................................................................... 32 (一)架构方面,云计算支撑算力服务以数据为中心.................................. 32 (二)功能方面,云计算持续驱动算力服务创新发展..................................0 码力 | 47 页 | 1.22 MB | 1 年前3
Alluxio 助力 Kubernetes, 加速云端深度学习Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌 Alluxio 创始成员 背景 硬件 软件 数据 容器化的基础架构 人工智能发展的驱动力 模拟数据训练速度 311.6 7323.84 9993.6 33884.8 0 5000 10000 15000 20000 25000 30000 35000 40000 分布式训练/GPU硬件升级加速明显 模拟数据训练时间 108 15.12 4.62 3.39 1 0 20 40 60 80 100 120 P100 (1GPU) P100 (8GPU) P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练时间(hours) V100 8卡 : 157.9元/小时 x 4 = 631.6 元 P100 P100 1卡:12.78 元/小时 x108 = 1380.24 元 数据访问的新挑战 1.强大的算力需要匹配的I/O吞吐 2.计算存储分离导致I/O延迟 3.单机缓存无法满足海量数据加速 9993.6 3189.6 0 2000 4000 6000 8000 10000 12000 Synthetic ESSD云盘 PL2 RestNet50 模型训练速度 (images/second)0 码力 | 22 页 | 11.79 MB | 1 年前3
Kubernetes开源书 - 周立applications ,也不区分应⽤程序和服务 。 Kubernetes旨在⽀持各种各样的⼯作负 载,包括⽆状态、有状态以及数据处理⼯作负载。 如果应⽤程序可在容器中运⾏,那么它应该能够很好地在 Kubernetes上运⾏。 不提供中间件(例如消息总线)、数据处理框架(例如Spark)、数据库(例如MySQL),也不提供分布式存储系 统(例如Ceph)作为内置服务。 这些应⽤可在Kubernetes上运⾏。 更多实例来实现扩容。详⻅ Building High-Availability Clusters 。 etcd etcd ⽤作Kubernetes的后端存储。集群的所有数据都存储在此。请为你Kubernetes集群的etcd数据提供备份计划。 kube-controller-manager kube-controller-manager 运⾏Controller,它们是处理集群中常规任务的后 程序以及集群本身。 Container Resource Monitoring(容器资源监控) Container Resource Monitoring 将容器的通⽤时序指标记录到⼀个中⼼化的数据库中,并提供⼀个UI以便于浏览该数 据。 Cluster-level Logging(集群级别的⽇志) Cluster-level logging 机制负责将容器的⽇志存储到具有搜索/浏览界⾯的中央⽇志存储中去。0 码力 | 135 页 | 21.02 MB | 1 年前3
Kubernetes全栈容器技术剖析商业增强:控制面HA、跨AZ高可用、滚动升级、裸金属容器 云容器引擎 CCE 微服务引擎 CSE 开源原生 企业级 中间件 分布式 缓存 DCS 分布式 消息 DMS 分布式 数据库 DDM 应用编排引擎 AOS App/PaaS/IaaS 资源一键式创建 应用运维 AOM 应用性能管理 APM 应用拓扑 调用链 SLA指标 日志关联分析 异常预警 序,人体健康监测,大数据分析等生物健康产品及解决 方案。 挑战: • 全基因测序原始数据约100GB/人,数据分析性能要 求高 • 测序需求多样,测序流程难以灵活自定义 基于容器的生物信息分析平台 • 结合FPGA加速计算可进一 步压缩成本 基因测序(测序仪) 数据上传 源数据 存储 基因拼接/对比/注释 数据 分类 存储 核心数据 取回本地 自动化部署 数据库 SFS/OBS •业务快速迭代,高峰期一周3~5个版本更新,运维压力大 •其他厂商的容器服务成熟度低,达不到商用要求 华为方案价值: •企业级容器服务经过2+年商用实践,SLA有保障 •提供一站式网络、存储、数据库、监控告警和健康检查解 决方案,降低系统集成风险,持续保障业务稳定运行 •支持原生 kubernetes API,原有容器化业务无缝迁移上云 蓝鲸传媒是证券时报旗下,国内首家针对科技媒体人打造0 码力 | 26 页 | 3.29 MB | 1 年前3
KubeCon2020/微服务技术与实践论坛/Spring Cloud Alibaba 在 Kubernetes 下的微服务治理最佳实践-方剑Spring Cloud 多语言微服务 API管理 服务压测 分布式事务 分布式调度 API网关 服务注册发现 负载均衡 服务配置 无损下线 服务容错 服务路由 服务鉴权 限流降级 服务元数据 服务测试 服务mock 持续集成 IDE插件 应用监控 链路追踪 日志管理 应用诊断 微服务架构总览 https://www.jetbrains.com/lp/devecosystem-2019/java/ 基于隔离容器 • 运维治理效率 大幅提升 • 无侵入 • 0升级成本 • 全面兼容开源 • 无侵入 • 多语言 • 依赖冲突难管理 • SDK升级成本高 微服务治理演进路线 • 服务元信息 • 服务契约管理 • 服务测试 • 服务Mock • 开发环境隔离 • 端云互联 运行态Ops 开发态Dev • 无损下线 • 无损上线 • 金丝雀发布 • A/B Test Dev-Sec-Ops 无损下线 离群实例摘除 标签路由 服务鉴权 链路跟踪 金丝雀发布 API管理 服务测试 限流降级 故障注入 • 业务无侵入、无感知 • 0升级成本 • 全面兼容开源 注册中心 元数据中心 微服务引擎 基于 Java Agent 的服务治理 public class BaseLoadBalancer { … @Override public ListgetReachableServers() 0 码力 | 27 页 | 7.10 MB | 1 年前3
Operator Pattern 用 Go 扩展 Kubernetes 的最佳实践云猿生(ApeCloud)是一家提供数据库内核与管理平台的基 础软件开发商. KubeBlocks 基于 K8s 的多云、混合云DBPaaS管理平台 ,支持MySQL、 PostgreSQL、Redis、MongoDB、Kafka等开源数据库的自动化 运维。 云猿生于2022年5月份成立,总部坐落于杭州,并同期设立 北京分公司。公司是云原生计算基金会(CNCF)会员企业, 信通院数据库应用创新实验室成员,并入选杭州市2023准 Restore 备份策略、备份方式、恢复方式、备份管理等等。 Disaster Recovery & High Availability Failover/Switchover、多可用区、数据恢复等等。 Security & Compliance 访问控制、审计、安全链接、加密存储等等。 Patching & Upgrades 小版本升级、大版本升级、安全漏洞修复等等。 Data Server 一致性 list & watch 机制中,list 获取 API Server 中数据的一份快照,并记 录 ResourceVersion 版本信息,watch 从 ResourceVersion 开始,获取后 续的增量数据。 watch 通过网络异步(asynchronous)获取增量数据,所以 cache 提供 的是最终一致性(eventual consistency)。 期间遇到网络、API0 码力 | 21 页 | 3.06 MB | 9 月前3
共 42 条
- 1
- 2
- 3
- 4
- 5













