Pod 容忍节点异常时间调整## Pod 容忍节点异常时间调整 ### 1. 原理说明 Kubernetes 集群节点处于异常状态之后需要有一个等待时间,才会对节点上的 Pod 进行驱逐。那么针对部分关键业务,是否可以调整这个时间,便于在节点发生异常时及时将 Pod 驱逐并在别的健康节点上重建? 要解决这个问题,我们首先要了解 Kubernetes 在节点异常时驱逐 Pod 的机制。 在 Kubernetes 1.13 参数,指定当节点出现异常(如 NotReady)时 Pod 还将在这个节点上运行多长的时间。 那么,节点发生异常到 Pod 被驱逐的时间,就取决于两个参数:1. 节点实际异常到被判断为不健康的时间;2. Pod 对节点不健康的容忍时间。 Kubernetes 集群中默认节点实际异常到被判断为不健康的时间为 40s, Pod 对节点 NotReady 的容忍时间为 5min, 也就是说, 节点实际异常 5min40s(340s) ### 2. 调整节点被标记为不健康的时间 ControllerManager 参数 --node-monitor-grace-period 控制了在将一个节点标记为不健康之前允许其无响应的时长上限,该参数默认值为 40s,且必须比 Kubelet 的 nodeStatusUpdateFrequency 参数 (Kubelet 向主控节点汇报节点状态的时间间隔) 大 N 倍;这里 N 指的是 kubelet0 码力 | 4 页 | 104.64 KB | 2 年前3
告警OnCall事件中心建设方法白皮书 # 事件 ONCALL 中心建设方法 一站式处理值班 OnCall,智能降噪  可能有多套)或者 Nightingale,日志的监控可能用的 Elastalert,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。 监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是PagerDuty 3/af23dd3a5d68a86ba08b082c21337120/p2_1.jpg) 对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分别进行探讨,下面先行探讨思路方法,看看要解决这些问题和需求,我们有哪些可能的解法。 ## 思路方法篇 告警事件的后续处理:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。看起来需求很多,最核心的痛点有两个:0 码力 | 23 页 | 1.75 MB | 2 年前3
机器学习课程-温州大学-时间序列总结## 时间序列总结 黄海广 副教授 2022年01月 ## 学习目标 了解 什么是时间序列,ARIMA 掌握 时间序列的基本操作  熟悉 滑动窗口的使用 掌握时期,重采样 ## 目录  01 时间序列的基本操作 时间序列的基本操作 02 固定频率的时间序列 03 时间周期及计算 04 重采样 05 数据统计—滑动窗口 06 时序模型—ARIMA ## 思考: 什么是时间序列? ## 时间序列的概念 时间序列是指多个时间点上形成的数值序列,它既可以是定期出现的,也可以是不定期出现的。   ## Sample data ## ☐ ☐ ☐ start = np.random.randint(3, size=1)[0] time_steps0 码力 | 9 页 | 572.18 KB | 2 年前3
时间序列表示## PyTorch ## 时间序列表示 主讲人:龙良曲 ## Spatial Signals  ## Temporal Signals? I Love You Text Message Today 12:43 PM Hey Caroline0 码力 | 14 页 | 1.16 MB | 2 年前3
一次线上java 应用响应时间过长问题的排查[Image](/uploads/documents/b/1/0/5/b1059dfbcee2b670b93af9e16b949726/p1_1.jpg) ## 链滴 ## 一 次线上 java 应用响应时间过长问题的排查 作者:xinzhongtianxia 原文链接:https://ld246.com/article/1569574881351 来源网站:链滴 许可协议:署名-相同方式共享 4 svg)最近接手一个老 java 应用,没多久接到响应时间太长的报警,整个排查过程还是挺有意思的,录一下。
整个过程中,设计到 cpu,内存,垃圾回收,引用,spring,单例 等等知识,整个下来,心情愉悦。
接到报警
吃完晚饭回来,接到报警短信,服务响应时间太长,达到 2s 以上。
第一反应,怎么可看垃圾回收日志,发现一直在进行 Full GC,但是几乎没啥效果,GC 完了,老年代依然是几乎满的状态。
即使是 CMS,也不能避免传说中的 stop the world,所以响应时间变长了。
但是,现在问题来了,Full GC 回收不掉的对象都是啥啥啥?分析 java 堆内存
先把线上流量从这台机器切走,然后
0 码力 | 3 页 | 247.74 KB | 2 年前3
OpenMetrics - Standing on the shoulders of Titans0 码力 | 21 页 | 84.83 KB | 1 年前3
Streaming in Apache Flink0 码力 | 45 页 | 3.00 MB | 2 年前3
杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用## PYCON CHINA 2019 ## 基于深度学习的多维时间序列预测在数据机房中的应用 浙江省邮电工程建设有限公司 大数据研究院 演讲人:杨赛赛 时间:10.19 ## 目录 1 背景介绍 2 研究目标 3 研究内容 4 后续工作 ### 1. 背景介绍  ## 多维时间序列预测方法解决机房温度预测 • 时间序列预测方法的比较 ## 传统时间序列预测 - 对单个维度历史信息进行预测 - 捕获简单线性关系,模型简单 • 代表算法有AR, ARIMA ## 基于深度学习的 时间序列预测 - 利用多维时间序列之间的信息 - 对变周期序列,多维空间依赖序列预测较弱 - 代表算法有RNN,LSTM ## 混合多维时间序列预测 - 提取多维序列之间更加复杂的关系 [Image](/uploads/documents/8/8/a/4/88a4e8e59674f74c7f37e59280fe9915/p10_1.jpg) - Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 • Recurrent and Recurrent-skip layer 捕捉长期宏观依赖和周期性信息 • Autoregressive 叠加线性比例关系0 码力 | 17 页 | 2.49 MB | 2 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100













