搜索

pdf文档 1.1.4 谈谈 Go 服务稳定性建设

1.58 MB 18 页 0 下载 8 浏览 0 评论 0 收藏
所属分类: 后端开发 / Go
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档围绕Go服务稳定性建设展开,首先定义稳定性包括可用性、正确性和延迟。稳定性手段涵盖需求合理性、技术方案简洁性、code review、单元测试和自动化回归,并特别针对涉及钱的服务强调幂等、至少一次、保序、浮点精度和正确性校验机制。稳定性度量包括正确性(财务对账、安全风控)和时延(Average、P50、P99、P99.9)。监控告警使用Prometheus和OpenTelemetry,要求及时精准、降噪、持续优化并关注异常日志。故障演练需识别风险点、整理应急预案、定期演练并复盘优化。排障流程包括保存现场、检查根因,通过监控告警判断流量、重启、回滚、扩容、限流或线上排障。
AI总结
该文档围绕Go服务稳定性建设展开,核心内容分为以下六个部分: 1. **稳定性定义**:从三个维度衡量,即**可用性**、**正确性**和**延迟**。 2. **稳定性手段**:包括需求与技术方案的合理性、代码审查、单元测试、自动化回归。针对涉及金钱的服务,特别强调**正确性**,需确保幂等、至少一次、保序、浮点精度(使用decimal)及请求成功率。 3. **稳定性度量**:主要关注**正确性**(通过财务对账、安全风控系统校验)和**时延**(关注平均值及P50、P99、P99.9分位值)。 4. **监控告警**:工具方面推荐Prometheus(基础指标自动上报,业务指标按需上报)和OpenTelemetry(链路追踪)。告警要求及时精准、降噪、持续优化,并关注异常日志;通知方式上,普通告警用消息,重要告警用电话。 5. **故障演练**:流程包括识别并分级风险点、制定应急预案、定期按预案演练,以及复盘优化。 6. **服务排障**:步骤为保存现场、检查根因。根据监控告警判断是否流量过高,采取的应对措施包括重启、回滚、扩容、调整限流,线上排障是最后手段。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 6 页请下载阅读 -
文档评分
请文明评论,理性发言.