腾讯云 Kubernetes 高性能网络技术揭秘——使用 eBPF 增强 IPVS 优化 K8s 网络性能-范建明kube-proxy代码实现比较简单 • iptables 在linux 已经广泛部署 优势 iptables mode 不足之处 • 控制平面的时间复杂度是O(N^2), 当service达到上千时,修改rule耗时超过半小时。 • 数据平面的时间复杂度是O(N) • 调度算法比较少,仅仅支持random的 • iptables rule 不容易调试 IPVS mode • 使用hashtable 使用hashtable 管理service • IPVS 仅仅提供了DNAT,还需要借用 iptables+conntrack 做SNAT • 控制面和数据面算法复杂度都是O(1) • 经历了二十多年的运行,比较稳定成熟 • 支持多种调度算法 优势 IPVS mode 不足之处 • 没有绕过conntrack,由此带来了性能开销 • 在k8s的实际使用中还有一些Bug 性能测试踩过的坑 设置测试环境 • 配置一样的cluster,性能可能不同。 • 多个CVM分布在同一台物理主机 • 同一个cluster,在不同的时间段,性能可能不同 • cpu 超卖 • 使用同一个cluster,在相近的时间段,比较两种mode • 使得cpu成为瓶颈点 • cpu和网卡pps的比例关系 < 1/50w pps • Target server pool /client0 码力 | 27 页 | 1.19 MB | 9 月前3
基于Kubernetes构建容器云平台的实践
- UCloud优刻得实验室负责⼈ 叶理灯Monitor Manager 进⾏行行监控; • Prometheus 配置 DeadMansSwitch 规则,实现⼀一个永远触发的告警,Monitor Manager 对其进⾏行行检测,当较⻓长时间没有收到报 警时,说明监控告警系统不不⼯工作了了,发出告警; • Grafana 使⽤用 PVC 进⾏行行配置⽂文件的存储; Think in Cloud . 北北京 KUN应⽤用 接⼊入层 实际链路路 Think in Cloud . 北北京 UK8S客户案例例 - A 解决痛点 • 新服务的上线以及原有服务的更更新过程繁杂 • 动态服务迁移操作难度⼤大 • 线上服务健康检查复杂度⾼高 • 服务之间的调⽤用和发现配置⼯工作多 • 单个服务完全消耗云主机资源 商户管理理 购物商城 管理理后台 对接端 Ingress 订单系统 API 搜索服务 商品同步 消息队列列0 码力 | 30 页 | 3.52 MB | 1 年前3
Serverless Kubernetes - 理想,现实和未来-张维Controllers - service discovery, ingress ECI ASK-Scheduler K8S API Server • 基于云产品控制器降低Kubernetes集群的复杂度 • 使用PrivateZone代替coredns服务发现 • 使用SLB layer-7(ALB)作为默认Ingress Private Zone ALB Serverless容器基础设施0 码力 | 20 页 | 2.27 MB | 1 年前3
⾸云容器产品Kubernetes操作指南保留对应的PV;Delete,PVC被删除后,删除对应 的PV 数据保留策略:当PV被删除后,如果数据保留策略为 true ,则归档相关数据,归档名称为 archived-原pv使⽤⽬录名称-时间戳 ; 如果为 false ,则直接删除该pv所使⽤的数据 17 删除存储类 查看存储类 在存储类列表中,点击详情,可以查看存储类相应信息 可以在基本信息和yaml⽂件中切换不同的显示⽅式 运⾏多久后开始检测(秒):即 initialDelaySeconds,容器启动后第⼀次执⾏检测时需要等 待多少秒,默认为 3 秒。 检查间隔(秒):即 periodSeconds,指执⾏检查的时间间隔,默认为 10 秒,最⼩为 1 秒。 不健康阈值:探测成功后,最少连续探测失败多少次才被认定为失败。默认是 3,最⼩值是 1。 TCP 即向容器发送⼀个 TCP Socket,kubelet C),详情参⻅左侧菜单栏集群->存储卷 延迟探测时间(秒):即 initialDelaySeconds,容器启动后第⼀次执⾏探测时需要等待多少 秒,默认为 15 秒。 执⾏探测频率(秒):即 periodSeconds,指执⾏探测的时间间隔,默认为 10 秒,最⼩为 1 秒。 超时时间(秒):即 timeoutSeconds,探测超时时间。默认 1 秒,最⼩ 1 秒。 不健康阈值:探测0 码力 | 94 页 | 9.98 MB | 1 年前3
Kubernetes开源书 - 周立找⼀种 ⽀持多平台 、 相对简单 、 适⽤于 ⽣产环境 的部署⽅案。经过⼀段时间的调研,有如下⼏种解决⽅案进⼊笔者视野: 部署⽅案 优点 缺点 Kubeadm 官⽅出品 部署较麻烦、不够透明 Kubespray 官⽅出品、部署较简单、懂Ansible就能上⼿ 不够透明 RKE 部署较简单、需要花⼀些时间了解RKE的cluster.yml配置 ⽂件 不够透明 ⼿动部署 第三⽅操作⽂ 档 通过其API进⾏交互。 API更改 根据我们的经验,任何成功的系统都需要随着新⽤例的出现或现有的变化⽽发展和变化。因此,我们预计Kubernetes API将会不断变化和发展。但是,在很⻓⼀段时间内并不会破坏与现有客户端的兼容性。⼀般来说,新的API资源和新的 资源字段通常可被频繁添加。消除资源或字段将需遵循 API deprecation policy 。 API change document ,详⻅: identifiers design doc 。 UID UID由Kubernetes⽣成。 在Kubernetes集群的整个⽣命周期中创建的每个对象都有不同的UID(即:它们在空间和时间 上是唯⼀的)。 07-Name 23 Namespace(命名空间) Kubernetes⽀持在同⼀物理集群中创建多个虚拟集群。 这些虚拟集群被称为Namespace。 使⽤多个Namespace的场景0 码力 | 135 页 | 21.02 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达此同时记录了组织技术和业务的演进过 程。RFCs 可以成为促进演化架构的宝贵工具。不过,为了获得最佳效果,我们建议组织采用轻量级的 RFCs 方 法。如果不限定范围并明确要点,这些文件往往会随着时间的推移而变得越来越长,类似于传统的解决方案架 构文件一样最终被归档和遗忘。 3. 具有可访问性意识的组件测试设计 试验 在软件交付进程中,可访问性要求是 Web 组件测试阶段的一种考察指标。尽管诸如 攻击路径进行攻击。此前的多数安全分析策略或工具主要聚焦在特定分线领域,例如错误的配置,脆弱的容器, 和常见漏洞上。这些孤立的方法意味着团队们不能看到这些风险与技术栈上其他层的弱点组合产生的危险攻击 路径。尽管这一技术已提出一段时间,但是近期安全分析工具的进展能使安全团队更易使用这项技术。Orca 和 Wiz 是两个此类工具。我们建议管理复杂基础设施的团队在为组织设计安全策略或选择安全分析工具时考虑这 项技术。 5. 自动合并依赖项更新 团队来说,致命弱点仍然是依赖项中存在漏洞,通常是来自于多层的间接依赖项。Dependabot 等工具可以通 过创建拉取请求(PR)来更新依赖项。不过,团队仍然需要制定工程纪律,以确保及时处理这些 PR,尤其是 对长时间不活跃的应用程序或服务提交的 PR。 如果系统具有广泛的测试覆盖范围——不仅有完善的单元测试,还包括有功能和性能测试,并且构建流水线必 须运行所有这些测试以及安全扫描,我们更提倡自动合并依赖项更新0 码力 | 43 页 | 2.76 MB | 1 年前3
Kubernetes全栈容器技术剖析:更快的弹性,更高的资源利用率 持续发布: 小时级->分钟级 弹性伸缩: 分钟级->秒级 应用交互性能提 升1~2倍 资源利用率提 升50% 挑战 收益 传统虚机应用上线慢 业务扩容时间长 同业务压力下资 源利用率低 传统虚机应用交 互性能低 • 应用可以基于容器镜像一站式自动化“构建发布上线” • 应用快速上线、扩容、升级,秒级弹性扩缩容 • 基于容器更细粒度共享,提升资源利用率 SWR容器 镜像仓库 研发交付 容器镜像 Node 客户问题: •用户流量存在明显波峰波谷,传统部署方式伸缩效率低 •服务器开服频繁,传统部署耗时长 •特性迭代快速,升级频繁,传统方式效率低,断服时间长 •公司遗留内部运维(CI/CD)系统,需要对接公有云 •国内其他云厂商的容器服务问题较多、很不成熟 华为方案价值: •支持丰富的弹性伸缩指标策略,秒级伸缩应对流量变化 •支持模板方式一键部署,分钟级完成开服 COST 290人日/月 测试成本降低 运维效率提升6倍 建立CI/CD流程,将开 发、测试、运维有机串 联,SDK版本升级由30分 钟缩至5分钟 Efficiency 6 倍 提升 30 时间缩短 弹性伸缩应高峰 容器配置与数量根据业 务量秒级扩缩容,轻松 应对热点业务高峰浪涌 应业务量弹性扩缩容 占用资源减半 该项目实施后,节约一次性 投资1160万元,节约机架 租赁及软硬件维保费用5300 码力 | 26 页 | 3.29 MB | 1 年前3
k8s操作手册 2.3ab里 取消挂载 # vi /etc/fstab # swapoff -a #取消所有swap挂载 ⑥NTP服务需要开启,使用集群内的ntp server,确保集群时间的一致性 # yum install chrony -y # systemctl enable chronyd # systemctl start chronyd # cat > resourceQuota-testxx.yaml ★第7章、pod控制器 pod控制器是由kube-controller-manager组件提供的一些资源,负责控制pod的创 建、删除、重新调度、运行时间等。常用的pod控制器有ReplicaSet, Deployment, DaemonSet, Job, CronJob等,如果pod被删除,则可以重新拉起一个 ★通过kind: Pod创建的容器组,在kubectl 件信息的HTTP接口被叫做exporter Promethus特点: 支持多维数据模型:由度量名和键值对组成的时间序列数据 内置时间序列数据库TSDB 支持PromQL查询语言,可以完成非常复杂的查询和分析,对图表展示和告警 非常有意义 支持HTTP的Pull方式采集时间序列数据 支持PushGateway采集瞬时任务的数据 支持服务发现和静态配置两种方式发现目标0 码力 | 126 页 | 4.33 MB | 1 年前3
云计算白皮书竞争的下一个主战场。 来源:Gartner,2023 年 4 月 图 2 2022 年全球各区域云计算市场规模占比 从厂商层面来看,云计算巨头借助云+AI 等技术优势不断扩大 领先地位。AWS、微软凭借投入时间早、地区布局广、云+AI 等技 术优势,长期稳居全球云计算市场第一梯队。两家巨头厂商在体量 很大的情况下,仍保持快速增长。财报数据显示,2022 年 AWS 和 微软营收分别达到 801 亿美元、1012 或上云费用进行一定比例的消费券或资金补贴;浙江、四川等则采 用对优秀上云企业直接发放不同级别资金的方式进行奖励。 云计算白皮书(2023 年) 11 表 1 2022-2023 年中国部分省市云计算相关政策 省市 时间 相关政策 重点内容 北京 2023.3 《2023 年北京市支持中小企业发 展资金实施指南》 对“专精特新”中小企业上云上平 台项目,且验收合格的合同额累计 超过 10 万元(含),按照不超过合 测、计 费等多种场景。相应的,云成本优化技术也从基础的资源监控治理 能力扩大至更加全面的场景化成本优化能力。首先,在云成本分账 场景下,二次分账技术可以对复杂的多云成本账单按照组织、系统、 时间等维度进行二次分账,使其与企业分账周期进行匹配,将零散 的云成本进行汇总并合理分配至每一个成本中心,提升云成本账单 在企业财务层面的可见性。其次,在云成本预测场景下,智能预测 技术结合企业云成0 码力 | 47 页 | 1.22 MB | 1 年前3
Alluxio 助力 Kubernetes, 加速云端深度学习) 分布式训练/GPU硬件升级加速明显 模拟数据训练时间 108 15.12 4.62 3.39 1 0 20 40 60 80 100 120 P100 (1GPU) P100 (8GPU) P100 (32GPU) V100 (8GPU) V100 (32GPU) RestNet50 模型训练时间(hours) V100 8卡 : 157.9元/小时 x 1 2 3 3. Fuse性能调优 • 选择更高版本的kernel • 设置max_read=131072 • 定制libfuse2代码,支持配置Libfuse线程池 • 延长元数据缓存时间 建议 端到端的优化方案 1252.5 4981.6 9993.6 17441.6 31068.8 1269.5 3266.8 3299.2 6409.6 13478.4 12740 码力 | 22 页 | 11.79 MB | 1 年前3
共 23 条
- 1
- 2
- 3













