事件时间 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Pod 容忍节点异常时间调整

## Pod 容忍节点异常时间调整 ### 1. 原理说明 Kubernetes 集群节点处于异常状态之后需要有一个等待时间，才会对节点上的 Pod 进行驱逐。那么针对部分关键业务，是否可以调整这个时间，便于在节点发生异常时及时将 Pod 驱逐并在别的健康节点上重建？要解决这个问题，我们首先要了解 Kubernetes 在节点异常时驱逐 Pod 的机制。在 Kubernetes 1.13 参数，指定当节点出现异常（如 NotReady）时 Pod 还将在这个节点上运行多长的时间。那么，节点发生异常到 Pod 被驱逐的时间，就取决于两个参数：1. 节点实际异常到被判断为不健康的时间；2. Pod 对节点不健康的容忍时间。 Kubernetes 集群中默认节点实际异常到被判断为不健康的时间为 40s, Pod 对节点 NotReady 的容忍时间为 5min, 也就是说, 节点实际异常 5min40s(340s) ### 2. 调整节点被标记为不健康的时间 ControllerManager 参数 --node-monitor-grace-period 控制了在将一个节点标记为不健康之前允许其无响应的时长上限，该参数默认值为 40s，且必须比 Kubelet 的 nodeStatusUpdateFrequency 参数 (Kubelet 向主控节点汇报节点状态的时间间隔) 大 N 倍；这里 N 指的是 kubelet

0 码力 | 4 页 | 104.64 KB | 2 年前
3
告警OnCall事件中心建设方法白皮书

![Image](/uploads/documents/a/f/2/3/af23dd3a5d68a86ba08b082c21337120/p1_1.jpg) # 事件 ONCALL 中心建设方法一站式处理值班 OnCall，智能降噪 ![Image](/uploads/documents/a/f/2/3/af23dd3a5d68a86ba08b082c21337120/p1_2.jpg) 可能有多套）或者 Nightingale，日志的监控可能用的 Elastalert，如果上云了，可能还会有多套不同的云监控（尤其是多云场景下）。监控系统的重心，通常是采集、存储、可视化、生成告警事件，但通常都不具有完备的事件后续处理能力。这里说的后续处理主要包括：多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力，但是通常都不完备，而这，正是PagerDuty 3/af23dd3a5d68a86ba08b082c21337120/p2_1.jpg) 对于告警事件的后续处理，有哪些问题和需求以及何为最佳实践？我们从思路方法和工具实践两个方面分别进行探讨，下面先行探讨思路方法，看看要解决这些问题和需求，我们有哪些可能的解法。 ## 思路方法篇告警事件的后续处理：多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升级、协同闭环处理等等。看起来需求很多，最核心的痛点有两个：

0 码力 | 23 页 | 1.75 MB | 2 年前
3
机器学习课程-温州大学-时间序列总结

## 时间序列总结黄海广副教授 2022年01月 ## 学习目标了解什么是时间序列，ARIMA 掌握时间序列的基本操作 ![Image](/uploads/documents/7/3/2/4/7324779c944ba21dfea64cbd0f6e9e96/p2_1.jpg) 熟悉滑动窗口的使用掌握时期，重采样 ## 目录 ![Image](/uploads/doc 01 时间序列的基本操作 02 固定频率的时间序列 03 时间周期及计算 04 重采样 05 数据统计—滑动窗口 06 时序模型—ARIMA ### 1. 时间序列的基本操作 ![Image](/uploads/documents/7/3/2/4/7324779c944ba21dfea64cbd0f6e9e96/p4_1.jpg) 01 时间序列的基本操作时间序列的基本操作 02 固定频率的时间序列 03 时间周期及计算 04 重采样 05 数据统计—滑动窗口 06 时序模型—ARIMA ## 思考：什么是时间序列？ ## 时间序列的概念时间序列是指多个时间点上形成的数值序列，它既可以是定期出现的，也可以是不定期出现的。 ![Image](/uploads/documents/7/3/2/4/7324779c944ba21dfea64cbd0f6e9e96/p6_1

0 码力 | 67 页 | 1.30 MB | 2 年前
3
探讨和实践基于Istio的微服务治理事件监控

# Service Mesh Meetup #4 上海站探讨和实践基于Istio的微服务治理事件监控 2018.11.25 徐运元 ## 关于我 ![Image](/uploads/documents/7/f/6/2/7f62ee8ecccbbe19358ef272039075f0/p2_2.jpg) ![Image](/uploads/documents/7/f/6/2/7f62ee8

0 码力 | 29 页 | 8.37 MB | 1 年前
3
时间序列预测

## PyTorch ## 时间序列预测主讲人：龙良曲 ## Predict next ![Image](/uploads/documents/e/a/9/2/ea92ad1a12369b6c5c7dfd77eeb48b0f/p2_1.jpg) ## Sample data ## ☐ ☐ ☐ start = np.random.randint(3, size=1)[0] time_steps

0 码力 | 9 页 | 572.18 KB | 2 年前
3
时间序列表示

## PyTorch ## 时间序列表示主讲人：龙良曲 ## Spatial Signals ![Image](/uploads/documents/c/2/f/4/c2f45ee6dae5359cc7479eee582f1a5a/p2_1.jpg) ## Temporal Signals? I Love You Text Message Today 12:43 PM Hey Caroline

0 码力 | 14 页 | 1.16 MB | 2 年前
3
一次线上java 应用响应时间过长问题的排查

[Image](/uploads/documents/b/1/0/5/b1059dfbcee2b670b93af9e16b949726/p1_1.jpg) ## 链滴 ## 一次线上 java 应用响应时间过长问题的排查作者：xinzhongtianxia 原文链接：https://ld246.com/article/1569574881351 来源网站：链滴许可协议：署名-相同方式共享 4 svg)

最近接手一个老 java 应用，没多久接到响应时间太长的报警，整个排查过程还是挺有意思的，录一下。

整个过程中，设计到 cpu，内存，垃圾回收，引用，spring，单例等等知识，整个下来，心情愉悦。
接到报警

吃完晚饭回来，接到报警短信，服务响应时间太长，达到 2s 以上。
第一反应，怎么可
看垃圾回收日志，发现一直在进行 Full GC，但是几乎没啥效果，GC 完了，老年代依然是几乎满的状态。

即使是 CMS，也不能避免传说中的 stop the world，所以响应时间变长了。
但是，现在问题来了，Full GC 回收不掉的对象都是啥啥啥？

分析 java 堆内存

先把线上流量从这台机器切走，然后

0 码力 | 3 页 | 247.74 KB | 2 年前
3
OpenMetrics - Standing on the shoulders of Titans

0 码力 | 21 页 | 84.83 KB | 1 年前
3
Streaming in Apache Flink

0 码力 | 45 页 | 3.00 MB | 2 年前
3
杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

## PYCON CHINA 2019 ## 基于深度学习的多维时间序列预测在数据机房中的应用浙江省邮电工程建设有限公司大数据研究院演讲人：杨赛赛时间：10.19 ## 目录 1 背景介绍 2 研究目标 3 研究内容 4 后续工作 ### 1. 背景介绍 ![Image](/uploads/documents/8/8/a/4/88a4e8e59674f74 jpg) ## 多维时间序列预测方法解决机房温度预测 • 时间序列预测方法的比较 ## 传统时间序列预测 - 对单个维度历史信息进行预测 - 捕获简单线性关系，模型简单 • 代表算法有AR, ARIMA ## 基于深度学习的时间序列预测 - 利用多维时间序列之间的信息 - 对变周期序列，多维空间依赖序列预测较弱 - 代表算法有RNN，LSTM ## 混合多维时间序列预测 - 提取多维序列之间更加复杂的关系 [Image](/uploads/documents/8/8/a/4/88a4e8e59674f74c7f37e59280fe9915/p10_1.jpg) - Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 • Recurrent and Recurrent-skip layer 捕捉长期宏观依赖和周期性信息 • Autoregressive 叠加线性比例关系

0 码力 | 17 页 | 2.49 MB | 2 年前
3

共 1000 条前往

页

分类

语言

格式

Pod 容忍节点异常时间调整

告警OnCall事件中心建设方法白皮书

机器学习课程-温州大学-时间序列总结

探讨和实践基于Istio的微服务治理事件监控

时间序列预测

时间序列表示

一次线上java 应用响应时间过长问题的排查

接到报警

分析 java 堆内存

OpenMetrics - Standing on the shoulders of Titans

Streaming in Apache Flink

杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

搜索

分类

语言

格式

接到报警

分析 java 堆内存