KubeCon2020/大型Kubernetes集群的资源编排优化0 码力 | 27 页 | 3.91 MB | 1 年前3
高性能 Kubernetes 元数据存储 KubeBrain 的设计思路和落地效果-许辰KubeBrain 字节跳动高性能 K8s 元信息存储 许辰 字节跳动资深研发工程师 许 辰 字节跳动基础架构工程师 本科和硕士毕业于北京大学计算机系 负责大规模 Kubernetes 系统的构建和优化 KubeBrain/ KubeGateway/ KubeZoo 等多个项目的发起人 • 背景介绍 • 设计思路 • 性能优化 • 落地效果 • 未来演进 背景 • • Kubernetes 规模增大 10 倍以上 公司业务快速发展 存储、大数据、机器学习等场景云原生化 • 新场景对 Kubernetes 性能要求更高 离线场景,Pod 生命周期短、变更频率高 如何扩展 Kubernetes 集群 单个集群规模垂直扩展 多个集群横向扩展 降低运维管理成本 减少资源碎片 提高资源利用率 Kubernetes 的架构特点 中心化架构 所有组件通过 apisever 交互 随着规模增大存储系统成为瓶颈 etcd 存在性能问题 apiserver etcd K8s 各组件 apiserver 元信息存储 etcd etcd 存在的问题 自研元信息存储 调优 etcd 参数 按照对象拆分 etcd 设计新的元信息存储 … 如何解决存储瓶颈? KubeBrain 1. 大脑 2. 谐音科比 Kobe0 码力 | 60 页 | 8.02 MB | 1 年前3
绕过conntrack,使用eBPF增强 IPVS优化K8s网络性能0 码力 | 24 页 | 1.90 MB | 1 年前3
运维上海2017-Kubernetes 在大规模场景下的service性能优化实战 - 杜军0 码力 | 38 页 | 3.39 MB | 1 年前3
腾讯云 Kubernetes 高性能网络技术揭秘——使用 eBPF 增强 IPVS 优化 K8s 网络性能-范建明TKE使用eBPF优化 k8s service Jianmingfan 腾讯云 目录 01 Service的现状及问题 优化的方法 02 和业界方法的比较 性能测试 03 04 解决的BUG 未来的工作 05 06 01 Service的现状及问题 什么是k8s Service • 应用通过固定的VIP访问一组pod,应用对Pod ip变化 无感知 • 本质是一个负载均衡器 经历了二十多年的运行,比较稳定成熟 • 支持多种调度算法 优势 IPVS mode 不足之处 • 没有绕过conntrack,由此带来了性能开销 • 在k8s的实际使用中还有一些Bug 02 优化的方法 指导思路 • 用尽量少的cpu指令处理每一个报文 • 不能独占cpu • 兼顾产品的稳定性,功能足够丰富 弯路 • 为什么DPDK不行? • 独占cpu,不适合分布式的lb map • 由于eBPF中没有timer机制 IPVS 如何做SNAT? 优化方法评价 • 优势 • 大大缩短了数据通路,完全绕过了conntrack/iptables • 不足 • 对内核模块做了一定的修改,部署更困难 03 和业界方法比较 V.S. 纯粹的eBPF service 和其他的优化方法对比 V.S. Taobao IPVS SNAT patch • 复用了IPVS0 码力 | 27 页 | 1.19 MB | 9 月前3
云计算白皮书热点领域和热点方向,试图在市场上抢得先机。 四是云计算技术不断推陈出新,助力产业高质量发展。随着上 云进程持续加深,企业需求逐步向用云转移,效率、性能、安全等 成为用户关注点,应用现代化、一云多芯、平台工程、云成本优化、 系统稳定性、云原生安全等新技术层出不穷,满足用户多样性场景 需求,助力产业数字化升级。 在此背景下,中国信息通信研究院继《云计算白皮书(2012 年)》 之后第 9 次发布云计算白皮书。本白皮书聚焦过去一年多来云计算 来帮助公共和私营部门进行数字化转型。该战略基于三大支柱:“可 云计算白皮书(2023 年) 2 信云”认证、“云中心”政策和工业战略。2021 年 6 月,意大利政府 宣布了云计算的国家战略,创建存储所有公共部门应用程序和公民 数据的国家级云计算系统,并将相关数据向“国家云”转移。 英国和澳大利亚政府发布国家战略,深度挖掘云计算的产业赋 能价值。在政府云战略(G-Cloud)基础上,英国国防部在 最大化释放云的生产力,实现快速创新。AWS 贯彻全面 Serverless 化战略,提供计算、存储、数据库等全领域的 Serverless 服务。微软 发力低/无代码领域,其发布的 Power Platform 已经与 Office 365、 Dynamics 365 以及 Azure 三大生态充分打通,形成完整的技术生态。 二是更注重软硬协同,优化性能。在算力多样化、节点高密化、载 体细粒度化等诉求下,底层硬件在云计算的驱动下也因云而变。20220 码力 | 47 页 | 1.22 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达Connect(OIDC)等联合身份机制对流水线进行 身份验证,以访问云服务。这一重要的技术仍未被充分利用在 GitHub Actions 中,因此推荐 OIDC for GitHub Actions。通过这种方式,可以避免存储长期的访问令牌来访问云资源,同时确保流水线无法直接访问机密信息。 然而,请务必谨慎地限制访问权限,以确保操作以最低权限运行。 8. 使用 Terraform 创建监控和告警 试验 基础设施及代码(IaC) 工具的团队需要重视这类风险。 团队可以通过对依赖进行健康检查化解包幻觉风险:在选择依赖之前查看它的创建日期、下载数量、github 评论 及星标数、贡献者数量、活动历史记录等。一些依赖健康检查可以在包存储仓库和 GitHub 上执行,而像 deps. dev 和 Snyk advisor 等工具也可以提供帮助。尽管依赖健康不是一项新技术,但随着团队在软件开发过程中越 来越多地尝试 GenAI 工具,该实践正在获得新的关注。 正在用它来管理数据产品的全生命周期,包括代码和数据的开发、分支、部署。通过它的自动化环境管理,能 够轻易建立、修改、自动销毁基于特征分支的环境。它的声明式标准(SOLE)能力也值得关注,因其可以优化 开发者体验。它能使团队构建数据产品的时间从几个月变为几天。我们的团队成功将 DataOps.live 用于生产环 境,这也是我们推荐在使用 Snowflake 时使用这一平台的原因。 27.0 码力 | 43 页 | 2.76 MB | 1 年前3
腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅Docker、Docket、Gaiastack P2P Agent下载镜像对比 Registry与P2P Agent流量占比对比 • 镜像下载引入BT协议 • 对Docker Daemon零入侵 • 每层分别做种 • 优化blob下载策略 发表论文:《FID: A Faster Image Distribution System for Docker Platform》 2017 IEEE 2nd International 09:33:02 开始pull V8版本的image PS:灰度升级属于原地升级,因此不需要重新过调度,升级的效率 也会提升。 每次升级可以选择要升级的实例个数以及具体哪些(个)实例。 能力扩展:存储场景 物理硬盘 cephFS ceph RBD ceph RBD 权限管理 quota 在线扩容 containe r containe r containe r 本地磁盘 作为资源进行调度 本地磁盘 2类存储,3种场景 本地磁盘:延时低,不可迁移 共享云盘:云存储,多容器共享,同时读写 内置云盘:云存储,每容器独享,用户无感知 云存储 • 支持在线扩容、quota管理、权限管理 • 共享云盘基于cephFS • 内置云盘基于cephRBD • 腾讯内部ceph版本,微信同款 能力扩展:GPU支持 分布式存储Ceph 海量小数据读写优化 不同用户配额管理0 码力 | 28 页 | 3.92 MB | 1 年前3
Alluxio 助力 Kubernetes, 加速云端深度学习我们是谁 • 问题背景 • Alluxio 助力云原生 AI 模型训练 • 相关资料 • Alluxio 是谁 • Allluxio 与 Kubernetes 结合 • Alluxio 优化实践 我们是谁? 车漾 阿里云高级技术专家 范斌 Alluxio 创始成员 背景 硬件 软件 数据 容器化的基础架构 人工智能发展的驱动力 模拟数据训练速度 311.6 7323 8卡 : 157.9元/小时 x 4 = 631.6 元 P100 1卡:12.78 元/小时 x108 = 1380.24 元 数据访问的新挑战 1.强大的算力需要匹配的I/O吞吐 2.计算存储分离导致I/O延迟 3.单机缓存无法满足海量数据加速 9993.6 3189.6 0 2000 4000 6000 8000 10000 12000 Synthetic ESSD云盘 PL2 fuse TensorFlow TensorFlow Alluxio Master Pod Pod MXNet MXNet Pod Pod Caffe Caffe oss 阿里云 对象存储 statefulset daemonset 一键式部署Alluxio,中心化配置集群参数 $ cat << EOF > config.yaml properties: fs.oss.accessKeyId:0 码力 | 22 页 | 11.79 MB | 1 年前3
逐灵&木苏-阿里巴巴 K8S 超大规模实践经验体系的过程,目前主要负责解决阿 里巴巴集团在大规模场景下使用 k8s 碰到的稳定性、容器编排质量和性能问 题。❖ 阿里巴巴容器的发展历程 ❖ 基于 k8s 云原生改造实践 ❖ k8s 规模及性能优化实践 ❖ 云原生应用管理演进路线 主要内容阿里巴巴容器的发展历程 2013 初步探索 使用容器的方式替换传统使用 VM 部署应用的,基于 lxc 自研 了 t4 容器并构建了 AI 集团管理 https://openkruise.iok8s 规模及性能优化实践性能优化 RT/QPS 资源使用率 链路RT/QPS 服务异常 队列长度 gRPC监控 长连接分布 请求分布 限流 Authorization Authenticatio n 序列化 压缩 版本转换 Admission Cache Storage Filter Chain API 存储 Kube-APIServer Webhook List & Watch优化 ETCD Cache Pod A V1 Pod A V2 Pod A V3 Reflector APIServer Watch Cache List & Watch Informer Reflector Store List & Watch• 网络抖动造成informer重新List & Watch List & Watch优化 Cache APIServer0 码力 | 33 页 | 8.67 MB | 6 月前3
共 42 条
- 1
- 2
- 3
- 4
- 5













