slo-implementation

定义并实施服务等级指标(SLIs)和服务等级目标(SLOs),包含误差预算和告警机制。适用于设定可靠性目标、实施站点可靠性工程(SRE)实践或衡量服务性能的场景。

作者

安装

热度:7

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-slo-implementation&locale=zh&source=copy

SLO Implementation - 服务级别目标实现指南

技能概述

SLO Implementation 提供完整的服务级别目标(SLO)实现框架,帮助您定义 SLI 指标、设置可靠性目标、计算错误预算,并配置智能告警规则,实现数据驱动的 SRE 可靠性管理。

适用场景

1. 建立服务可靠性目标

当您需要为微服务、API 或应用程序制定可量化的可靠性目标时,该技能提供完整的 SLI/SLO/SLA 层次结构指导,帮助您选择合适的可用性、延迟和持久性指标,并基于业务需求设定现实的 SLO 目标值(如 99%、99.9%、99.95%)。

2. 实施错误预算策略

当您想要平衡功能发布速度与系统稳定性时,该技能提供错误预算计算公式和策略配置,帮助您定义预算耗尽时的行动方针(如正常开发、推迟变更、功能冻结),实现基于数据的发布决策。

3. 配置 SLO 监控告警

当您需要基于 SLO 配置智能告警时,该技能提供 Prometheus 录制规则和告警规则模板,包括多窗口燃烧率检测(快速燃烧 14.4x、慢速燃烧 6x),有效减少误报并提前预警可靠性问题。

核心功能

1. SLI 指标定义

提供可用性、延迟、持久性等常见 SLI 类型的 PromQL 查询模板,支持 28 天滚动窗口计算,帮助您准确测量用户真实感知的服务质量。包含 HTTP 请求成功率、P95 延迟达标率、存储写入成功率等开箱即用的指标定义。

2. 错误预算管理

自动计算错误预算余量(公式:(SLI - SLO目标) / (1 - SLO目标) * 100),实时追踪预算消耗速率,支持多时间窗口(5分钟、1小时、6小时)的燃烧率分析,让您清晰了解还能容忍多少错误。

3. SLO 告警与可视化

提供 Grafana 仪表板结构模板和 PromQL 查询示例,可视化展示 SLO 合规性、错误预算余量、SLI 趋势和燃烧率分析。配合多窗口告警规则,在错误预算快速消耗时及时发出告警,避免 SLO 违规。

常见问题

SLO 和 SLA 有什么区别?

SLA(Service Level Agreement)是与客户签署的服务级别协议,是商业承诺;SLO(Service Level Objective)是内部设定的可靠性目标,用于驱动工程实践;SLI(Service Level Indicator)是实际测量的指标值。三者形成"客户承诺 → 内部目标 → 实际测量"的层次关系。

如何选择合适的 SLO 目标值?

选择 SLO 需要综合考虑用户期望、业务需求、当前性能、可靠性成本和竞品基准。常见目标是 99%(月度停机 7.2 小时)、99.9%(43.2 分钟)、99.95%(21.6 分钟)。避免追求 100% 可用性,因为这会无限增加成本并阻碍创新。建议从当前性能略高的值开始,逐步调整。

什么是多窗口燃烧率告警?

多窗口告警通过组合短窗口(如 1 小时)和长窗口(如 6 小时)的燃烧率检测,减少误报。例如:快速燃烧告警要求 1 小时和 5 分钟窗口的燃烧率都超过 14.4x(意味着 1 小时内消耗 2% 错误预算),慢速燃烧告警要求 6 小时和 30 分钟窗口都超过 6x。这种方式能有效过滤短暂波动,只在真实持续问题时告警。