incident-runbook-templates
创建结构化的事件响应手册,包含分步操作流程、升级路径和恢复措施。适用于构建手册、应对事件或建立事件响应程序时使用。
作者
分类
文档处理安装
热度:4
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-incident-runbook-templates&locale=zh&source=copy
Incident Runbook Templates - 事件响应手册模板
技能概述
Incident Runbook Templates 提供生产就绪的事件响应手册模板,涵盖检测、分类、缓解、解决和沟通全流程,帮助 SRE 和运维团队快速建立结构化的故障处理程序。
适用场景
1. 创建事件响应程序
当团队需要建立标准化的故障处理流程时,使用此技能可快速生成包含检测、初始分类、缓解步骤、验证程序和沟通模板的完整 runbook。
2. 构建服务特定手册
针对具体服务(如支付处理、数据库、API 网关)创建定制化的故障处理手册,包含服务特定的健康检查命令、依赖检查和回滚程序。
3. 值班工程师入职培训
为新加入的 on-call 工程师提供结构化的故障处理指导,包含事件严重性分级(SEV1-SEV4)、升级矩阵和沟通模板,帮助其在压力下做出正确决策。
4. 响应活跃生产事故
在生产环境故障发生时,提供即时的分步处理程序,包括快速健康检查、服务回滚、依赖隔离和横向扩展等可执行命令。
核心功能
1. 事件严重性分级标准
提供 SEV1-SEV4 四级事件分类框架,每级定义明确的影响范围、响应时间和处理优先级,帮助团队快速评估故障紧急程度并分配正确资源。
| 严重级别 | 影响范围 | 响应时间 | 典型场景 |
|---|---|---|---|
| SEV1 | 完全宕机、数据丢失 | 15 分钟 | 生产环境不可用 |
| SEV2 | 严重功能降级 | 30 分钟 | 核心功能失效 |
| SEV3 | 轻微影响 | 2 小时 | 非关键功能异常 |
| SEV4 | 最小影响 | 下个工作日 | 界面显示问题 |
2. 服务宕机手册模板
提供完整的 Kubernetes 服务故障处理流程,包含 Pod 崩溃排查、部署回滚、服务扩容、依赖隔离等实际命令。模板覆盖完全宕机、高延迟、部分故障、流量突增等四种常见故障模式,每个模式都附带可直接执行的诊断和缓解命令。
# 示例:快速回滚到上一个稳定版本
kubectl rollout undo deployment/payment-service -n payments
kubectl rollout status deployment/payment-service -n payments3. 数据库故障处理手册
针对连接池耗尽、复制延迟、磁盘空间不足等数据库常见问题,提供即席 SQL 查询和诊断命令。帮助值班工程师快速定位慢查询、终止阻塞连接、评估复制延迟并决定是否需要故障转移。
4. 沟通模板库
内置三套标准化沟通模板:初始故障通知(内部 Slack)、状态更新、解决通知。每套模板包含必填字段(如影响范围、当前措施、预计解决时间),确保在压力下仍能清晰传达关键信息。
5. 升级矩阵设计
提供条件驱动的升级决策表,根据故障持续时间、影响范围、是否涉及数据安全等因素,自动匹配升级对象(工程经理、安全团队、法务部门等)和联系方式。
常见问题
Incident runbook 和普通操作文档有什么区别?
Incident runbook 专为压力环境设计,强调可执行的命令和分步决策,而非概念说明。好的 runbook 应该能让凌晨 3 点被叫醒的工程师直接复制粘贴命令执行,而不需要查阅其他文档。它包含明确的入口条件(何时使用)、验证步骤(确认是否生效)和回滚程序(如果情况恶化)。
SEV1 事件如何判定?
SEV1 事件通常满足以下任一条件:核心业务完全不可用(如支付功能 100% 失败)、数据丢失或泄露风险、影响大量付费客户、造成直接财务损失。判定后需要在 15 分钟内组建响应小组,并每 15 分钟向管理层同步状态。如果不确定严重级别,宁高勿低——先按 SEV1 处理,后续根据调查结果降级。
如何开始编写第一个 runbook?
从最关键的服务开始,优先覆盖已发生过的问题。使用本技能提供的"服务宕机手册模板"作为起点,填写服务特定的信息(如 Kubernetes 命名空间、Pod 标签、健康检查端点、依赖服务)。然后进行一次游戏日(game day)演练,邀请团队按 runbook 模拟故障处理,记录哪些步骤不清楚或缺少信息。每次真实事件后更新 runbook,保持其与生产环境同步。
这个技能适合哪些人使用?
技能的限制是什么?
此技能提供的是模板和框架,不是针对特定系统的完全定制方案。你需要将模板中的占位符(如
[Service Name]、[Slack Channel])替换为实际信息,并根据团队的工具链(Kubernetes、AWS、特定数据库)调整命令。模板假设你使用标准云原生工具栈,如果你的环境差异较大,需要自行验证命令的适用性。