腾讯云 Kubernetes 高性能网络技术揭秘——使用 eBPF 增强 IPVS 优化 K8s 网络性能-范建明
TKE使用eBPF优化 k8s service Jianmingfan 腾讯云 目录 01 Service的现状及问题 优化的方法 02 和业界方法的比较 性能测试 03 04 解决的BUG 未来的工作 05 06 01 Service的现状及问题 什么是k8s Service • 应用通过固定的VIP访问一组pod,应用对Pod ip变化 无感知 • 本质是一个负载均衡器 控制面和数据面算法复杂度都是O(1) • 经历了二十多年的运行,比较稳定成熟 • 支持多种调度算法 优势 IPVS mode 不足之处 • 没有绕过conntrack,由此带来了性能开销 • 在k8s的实际使用中还有一些Bug 02 优化的方法 指导思路 • 用尽量少的cpu指令处理每一个报文 • 不能独占cpu • 兼顾产品的稳定性,功能足够丰富 弯路 度算法丰富。 • 优势 • 完全绕过了conntrack/iptables • 对内核修改更小 04 性能测试 性能测试踩过的坑 设置测试环境 • 配置一样的cluster,性能可能不同。 • 多个CVM分布在同一台物理主机 • 同一个cluster,在不同的时间段,性能可能不同 • cpu 超卖 • 使用同一个cluster,在相近的时间段,比较两种mode • 使得cpu成为瓶颈点0 码力 | 27 页 | 1.19 MB | 9 月前3绕过conntrack,使用eBPF增强 IPVS优化K8s网络性能
0 码力 | 24 页 | 1.90 MB | 1 年前3高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰
KubeBrain 字节跳动高性能 K8s 元信息存储 许辰 字节跳动资深研发工程师 许 辰 字节跳动基础架构工程师 本科和硕士毕业于北京大学计算机系 负责大规模 Kubernetes 系统的构建和优化 KubeBrain/ KubeGateway/ KubeZoo 等多个项目的发起人 • 背景介绍 • 设计思路 • 性能优化 • 落地效果 • 未来演进 背景 新场景对 Kubernetes 性能要求更高 离线场景,Pod 生命周期短、变更频率高 如何扩展 Kubernetes 集群 单个集群规模垂直扩展 多个集群横向扩展 降低运维管理成本 减少资源碎片 提高资源利用率 Kubernetes 的架构特点 中心化架构 所有组件通过 apisever 交互 随着规模增大存储系统成为瓶颈 etcd 存在性能问题 apiserver 参数 按照对象拆分 etcd 设计新的元信息存储 … 如何解决存储瓶颈? KubeBrain 1. 大脑 2. 谐音科比 Kobe Bryant • 背景介绍 • 设计思路 • 性能优化 • 落地效果 • 未来演进 K8s 元信息存储的需求 (1) 读 • 单 Key 读,提供线性一致性 • Range 扫描读,支持快照读,支持分页 写 • K8s 乐观锁0 码力 | 60 页 | 8.02 MB | 1 年前3运维上海2017-Kubernetes 在大规模场景下的service性能优化实战 - 杜军
0 码力 | 38 页 | 3.39 MB | 1 年前3云计算白皮书
础支撑。加快推动云计算创新发展,顺应新一轮科技革命和产业变 革趋势,是推进中国式现代化进程的关键。 过去一年,全球和我国云计算产业保持快速发展,并呈现出以 下特点: 一是云计算战略价值在全球范围内持续提升。美国继“云优先” (Cloud First)、“云敏捷”(Cloud Smart)之后,又出台多个战略文件, 将云计算应用至相关领域,并明确提出通过云战略获取全球优势, 以确保其在经济、军事、科技等领域的领先地位。欧洲、亚洲等主 头厂商在全球化布局基础上,纷纷调整发展重心,并聚焦热点区域、 热点领域和热点方向,试图在市场上抢得先机。 四是云计算技术不断推陈出新,助力产业高质量发展。随着上 云进程持续加深,企业需求逐步向用云转移,效率、性能、安全等 成为用户关注点,应用现代化、一云多芯、平台工程、云成本优化、 系统稳定性、云原生安全等新技术层出不穷,满足用户多样性场景 需求,助力产业数字化升级。 在此背景下,中国信息通信研究院继《云计算白皮书(2012 防数字骨干和数据战略的关键推动因素。澳大利亚明确云计算是推 进产业数字化转型的必由之路,在 2021 年 12 月份先后更新和发布 了其“数字政府”战略和首个《2023-2025 年数据战略》,将通过统 一的云计算架构和基础设施提升数据应用价值和安全性。 日本发布多个计划,积极推动云计算在政务领域的深度应用。 日本政府于 2021 年 9 月份成立数字厅,同年 10 月开始导入政府云 服务,计划于 2025 年之前构建所有中央机关和地方自治团体能共享0 码力 | 47 页 | 1.22 MB | 1 年前3Kubernetes全栈容器技术剖析
分布式 数据库 DDM 应用编排引擎 AOS App/PaaS/IaaS 资源一键式创建 应用运维 AOM 应用性能管理 APM 应用拓扑 调用链 SLA指标 日志关联分析 异常预警 故障回溯 软件开发服 务 DevCloud 云性能测试 CPTS PaaS IaaS 开发测试 统一编排 自动化部署、微服务注册发现与治理、中间件运行环境 智能运维 开放网关APIG 紧跟Kubernetes和Docker社区,迅速同步最新版本 • 支持原生API调用和命令行操作 增强的商用化特性 • 通过自动化配置、构建、部署提升业务上线效率 • 通过跨可用区高可用和控制面HA提升业务可靠性 • 通过物理共享集群提供敏捷可靠的容器适应业务多样性 高性能基础设施 • 支持多种异构IaaS:虚拟机、物理机、ARM服务器 • 支持多种存储:云硬盘、对象存储、文件存储 • 对接公私网络:虚拟私有网络、EIP公网 第三方模板&镜像部署 K8S Helm/Docker Hub 第三方服务&工具 Kafka/Nginx/APM/Monitor 优势: 9 国内首发裸金属容器:为“高性能场景”量身打造 10 裸金属容器集群VS虚拟机容器集群 的性能对比 29880 29791 29022 15301 14706 14241 0 5000 10000 15000 20000 25000 300000 码力 | 26 页 | 3.29 MB | 1 年前3石油巨头与Kubernetes, Microservice & DevOps 共舞1114最终版
快速迭代开发,更短的发布周期, 并统⼀流程,规范化管理 持续交付 提⾼部署的效率,降低部署的⻛ 险,提⾼部署的质量,消除部⻔ 壁垒,交付过程标准化, 透明化 持续构建与测试 保障代码质量,提升开发效率 知识共享 知识共享与积累,不断完善,持 续学习改进 认证与改进 持续优化, 形成闭环 运维监控 运⾏状态可视化,数据化,降低 部署⻛险,快速反馈 运营统计 全链路指标统计,为持续改进提 指标统计 XXXX 指标统计 XXXX 指标统计 XXXX 指标统计 运营统计 编译打 包 代码质量 管理 多语⾔ 构建 安全管控 构建实 践 测试管理 功能测 试 性能测试 接⼝测 试 产出物管 理 持续构建与测试 ⾃动部 署 配置管理 环境管 理 数据库变 更 运维监 控 通知反馈 部署策 略 持续交付 ⼯具链 最佳实践 测试管理 对整体产品进⾏规划,需求排期 • 对产品团队负责 • 负责开发任务的分解,任务下发 • 开发团队管理 • 功能接⼝性能测试 • 产品质量保证 • 测试团队管理 • 团队管理 • 为系统应⽤稳定性负责 • 定义监控指标 • 修改配置⽂件 • 应⽤运⾏稳定保障 • 功能接⼝性能测试 • 测试⽤例编写 • 产品质量保证 • 需求理解 • 编码实现 • 产出交付 ⽀撑的场景 需求管理0 码力 | 33 页 | 7.49 MB | 1 年前3DaoCloud Enterprise 5.0 产品介绍
存储 17 参考文档 18 版权 © 2023 DaoCloud 第 3 页 简介 DaoCloud Enterprise 5.0(DCE 5.0)是一款高性能、可扩展的云原生操作系统。 它能够在任何基础设施和任意环境中提供一致、稳定的体验,支持异构云、边 缘云和多云编排。 DCE 5.0 集成了最新的服务网格和微服务技术,能够跟踪每 一个流量的生发始终, 、混合云 的数字基础设施。 涉及的模块:全局管理、容器管理、云原生网络、云原生存储、信创异构 中间件服务 专为有状态应用设计的云原生本地存储能力,满足中间件高 I/O 的存储需求,提升运 维管理效率。精选各类数据库、分布式消息和日志检索等中间件,提供多租户、部 署、观测、备份、运维操作等全生命周期的中 间件管理能力,实现数据服务的自助化 申请、弹性扩展、高并发处理和稳定高可用。 提供非侵入式流量治理功能,支持无感接入传统微服务、云原生微服务和开源微服务 框架,实现企业现有微服务体系及新旧微服务体系的融合治理,支持微服务从开发、 部署、接入、观测、运维的全生命周期管理,提供高性能云原生微服务网关,保证微 服务应用的连续可用性;引入自主开源的 eBPF 网格加速技术,全面提高流量转发效 率。 涉及的模块:全局管理、容器管理、微服务治理、服务网格、可观测性、应用工作 台、云原生网络、云原生存储0 码力 | 18 页 | 1.32 MB | 1 年前3第29 期| 2023 年9 月- 技术雷达
自托管式大语言 模型,相较云托管的大语言模型,它支持更多的定制和管控。随着大语言模型日益复杂,我们正在深思如何在 小型设备上运行大语言模型,特别是在边缘设备和资源受限的环境中。我们还提到有望提高性能的 ReAct 提示 工程,以及利用大语言模型驱动的自主代理开发远超简单的问答交互的动态应用。我们也提到一些向量数据库 (包括 Pinecone)由于大语言模型而重新流行起来。大语言模型的底层能力,包括更专业化和自行托管的能力, 过创建拉取请求(PR)来更新依赖项。不过,团队仍然需要制定工程纪律,以确保及时处理这些 PR,尤其是 对长时间不活跃的应用程序或服务提交的 PR。 如果系统具有广泛的测试覆盖范围——不仅有完善的单元测试,还包括有功能和性能测试,并且构建流水线必 须运行所有这些测试以及安全扫描,我们更提倡自动合并依赖项更新 PR。 简而言之,团队必须完全相信,流水 线运行成功后,软件就可以投入生产。在这种情况下,依赖项更新 PR,即使它们在间接依赖项中包含主要版本 组件并不容易。已经出现了一些框架来简化这一过程,甚至一些框架中还使用了浏览器引 擎,但复杂性仍然存在。比开发人员体验更糟糕的是用户体验:当必须在浏览器中加载和构建自定义 Web 组件 时,页面加载性能会受到影响,即使在预渲染和精心调整组件的情况下,也几乎无法避免“无样式内容闪烁” 或某些布局变化。放弃使用 Web 组件的决定可能会产生深远的影响,正如我们的一个团队曾经不得不将其基于 Web0 码力 | 43 页 | 2.76 MB | 1 年前3sealos 以 kubernetes 为内核的云操作系统
磁盘同等IO能力 , 可以把整个集群像Docker 一样打包,一键交付 , 有轻量化、超高性能、极易管 理等特点 自研 负载均衡器, 可支撑超大规模数万节点 集群运行 ,运行速度全球领先,毫秒级发布 更高稳定性 实现安全隔离 轻量化 数万节点集群运行 运行速度 全球领先 超高性能 极易管理 使用场景 私有云 完全 离线 公有云 注册 使用 自助 服务 一键 构建 3min,而 sealos 只需要 30s,不能 怪 terraform 某些底层 driver 写的不好 云驱动层 01 对接 firecracker cilium openebs 等技术 无性能损失的网络层计量 与隔离 rust 自研分布式文件系统 sealfs 直接对接 rustvmm 绕 开 fuse 02 client manger manger metadata data Heartbeat metabata Heartbeat metabata data 存储 openebs localPV Why: 1. 获得裸机磁盘性能 2. 多租户之间可以通过块进行隔离 3. 简单,非常轻量 4. 可通过 lvm 条带化增加性能 5. 非常适合给数据库这样用 缺陷: 1. 不在磁盘级别提供高可用 所以高可用交给 KB rocketmq 这些应用自身去解决 业务起的有状态容器可用0 码力 | 29 页 | 7.64 MB | 9 月前3
共 37 条
- 1
- 2
- 3
- 4