incident-runbook-templates

创建结构化的事件响应手册,包含分步操作流程、升级路径和恢复措施。适用于构建手册、应对事件或建立事件响应程序时使用。

作者

安装

热度:4

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-incident-runbook-templates&locale=zh&source=copy

Incident Runbook Templates - 事件响应手册模板

技能概述


Incident Runbook Templates 提供生产就绪的事件响应手册模板,涵盖检测、分类、缓解、解决和沟通全流程,帮助 SRE 和运维团队快速建立结构化的故障处理程序。

适用场景

1. 创建事件响应程序


当团队需要建立标准化的故障处理流程时,使用此技能可快速生成包含检测、初始分类、缓解步骤、验证程序和沟通模板的完整 runbook。

2. 构建服务特定手册


针对具体服务(如支付处理、数据库、API 网关)创建定制化的故障处理手册,包含服务特定的健康检查命令、依赖检查和回滚程序。

3. 值班工程师入职培训


为新加入的 on-call 工程师提供结构化的故障处理指导,包含事件严重性分级(SEV1-SEV4)、升级矩阵和沟通模板,帮助其在压力下做出正确决策。

4. 响应活跃生产事故


在生产环境故障发生时,提供即时的分步处理程序,包括快速健康检查、服务回滚、依赖隔离和横向扩展等可执行命令。

核心功能

1. 事件严重性分级标准


提供 SEV1-SEV4 四级事件分类框架,每级定义明确的影响范围、响应时间和处理优先级,帮助团队快速评估故障紧急程度并分配正确资源。

严重级别影响范围响应时间典型场景
SEV1完全宕机、数据丢失15 分钟生产环境不可用
SEV2严重功能降级30 分钟核心功能失效
SEV3轻微影响2 小时非关键功能异常
SEV4最小影响下个工作日界面显示问题

2. 服务宕机手册模板


提供完整的 Kubernetes 服务故障处理流程,包含 Pod 崩溃排查、部署回滚、服务扩容、依赖隔离等实际命令。模板覆盖完全宕机、高延迟、部分故障、流量突增等四种常见故障模式,每个模式都附带可直接执行的诊断和缓解命令。

# 示例:快速回滚到上一个稳定版本
kubectl rollout undo deployment/payment-service -n payments
kubectl rollout status deployment/payment-service -n payments

3. 数据库故障处理手册


针对连接池耗尽、复制延迟、磁盘空间不足等数据库常见问题,提供即席 SQL 查询和诊断命令。帮助值班工程师快速定位慢查询、终止阻塞连接、评估复制延迟并决定是否需要故障转移。

4. 沟通模板库


内置三套标准化沟通模板:初始故障通知(内部 Slack)、状态更新、解决通知。每套模板包含必填字段(如影响范围、当前措施、预计解决时间),确保在压力下仍能清晰传达关键信息。

5. 升级矩阵设计


提供条件驱动的升级决策表,根据故障持续时间、影响范围、是否涉及数据安全等因素,自动匹配升级对象(工程经理、安全团队、法务部门等)和联系方式。

常见问题

Incident runbook 和普通操作文档有什么区别?


Incident runbook 专为压力环境设计,强调可执行的命令和分步决策,而非概念说明。好的 runbook 应该能让凌晨 3 点被叫醒的工程师直接复制粘贴命令执行,而不需要查阅其他文档。它包含明确的入口条件(何时使用)、验证步骤(确认是否生效)和回滚程序(如果情况恶化)。

SEV1 事件如何判定?


SEV1 事件通常满足以下任一条件:核心业务完全不可用(如支付功能 100% 失败)、数据丢失或泄露风险、影响大量付费客户、造成直接财务损失。判定后需要在 15 分钟内组建响应小组,并每 15 分钟向管理层同步状态。如果不确定严重级别,宁高勿低——先按 SEV1 处理,后续根据调查结果降级。

如何开始编写第一个 runbook?


从最关键的服务开始,优先覆盖已发生过的问题。使用本技能提供的"服务宕机手册模板"作为起点,填写服务特定的信息(如 Kubernetes 命名空间、Pod 标签、健康检查端点、依赖服务)。然后进行一次游戏日(game day)演练,邀请团队按 runbook 模拟故障处理,记录哪些步骤不清楚或缺少信息。每次真实事件后更新 runbook,保持其与生产环境同步。

这个技能适合哪些人使用?


  • SRE/运维工程师:建立团队标准化故障处理流程

  • 平台工程师:为核心服务编写定制化手册

  • 值班工程师:作为事件响应的快速参考指南

  • 工程经理:设计团队升级矩阵和沟通规范

  • DevOps 工程师:将 runbook 集成到自动化工具(如 PagerDuty、Opsgenie)
  • 技能的限制是什么?


    此技能提供的是模板和框架,不是针对特定系统的完全定制方案。你需要将模板中的占位符(如 [Service Name][Slack Channel])替换为实际信息,并根据团队的工具链(Kubernetes、AWS、特定数据库)调整命令。模板假设你使用标准云原生工具栈,如果你的环境差异较大,需要自行验证命令的适用性。