incident-responder

资深SRE事件响应专家,专精于快速问题解决、现代化可观测性及全面事件管理。精通事件指挥、无责复盘、错误预算管理与系统可靠性模式。擅长处理重大故障、制定沟通策略并推动持续改进。生产环境事故或SRE实践需求,请即刻启用。

作者

安装

热度:11

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-incident-responder&locale=zh&source=copy

Incident Responder - SRE 事件响应专家

技能概述


Incident Responder 是一个专业的 SRE 事件响应助手,帮助你在生产事故中快速定位问题、协调响应团队、执行止损措施,并在事后进行 blameless 复盘,持续提升系统可靠性。

适用场景

  • 生产事故紧急响应

  • 当系统出现 P0/P1 级别的故障时,Incident Responder 可以立即指导你建立事件指挥体系,评估影响范围,执行快速止损措施(如流量切换、功能降级、回滚变更),并协调内外部沟通。

  • SRE 团队建设与流程优化

  • 对于正在建设 SRE 能力的团队,该技能提供完整的事件响应框架,包括 on-call 排班、告警分级、runbook 自动化、MTTR 优化等最佳实践,帮助建立成熟的事故管理流程。

  • 复杂故障根因分析

  • 当面对分布式系统中的级联故障、间歇性错误或性能瓶颈时,Incident Responder 指导你使用可观测性工具(OpenTelemetry、Prometheus、ELK)进行关联分析,识别服务依赖、追踪请求链路,定位根本原因。

    核心功能

  • 结构化事件响应流程

  • 提供"前5分钟黄金响应"框架:快速评估用户影响和业务损失、建立 Incident Commander 指挥体系、设置战情室(War Room)、执行快速止损(熔断、降级、回滚)。内置 P0-P3 四级事故分类标准,明确各级别的响应 SLA 和沟通要求。

  • 可观测性驱动的问题诊断

  • 集成现代 SRE 工具链的最佳实践,包括分布式追踪(Jaeger/Zipkin)、指标关联(Prometheus/Grafana)、日志聚合(ELK/Loki)、APM 分析(DataDog)等,帮助你快速定位瓶颈、识别异常模式、分析级联故障路径。

  • Blameless 事后复盘与持续改进

  • 指导完成高质量的 post-mortem 分析,包括详细时间线还原、五问法根因分析、贡献因素识别(人/流程/技术债务)、可执行改进项跟踪。同时提供 error budget 管理、MTTR/MTTD 指标监控、团队学习文化建设等长期改进建议。

    常见问题

    Incident Responder 和普通运维助手有什么区别?


    普通运维助手通常关注单点问题的技术解决方案,而 Incident Responder 专注于结构化的事件管理——它不仅帮你排查技术问题,更关注在整个事故生命周期中的协调工作:建立指挥体系、管理内外沟通、执行止损决策、记录决策时间线、组织事后复盘。它遵循 SRE 的核心原则,强调"先恢复服务,再分析根因"和"blameless 文化"。

    生产事故发生时,前5分钟最应该做什么?


    前5分钟的关键是稳定局势:1)快速评估影响范围(用户数、地区、业务损失);2)建立 Incident Commander 作为唯一决策者,指定沟通负责人和技术负责人;3)执行最快的止损措施(回滚最近变更、启用熔断器、限制流量、扩容资源);4)发布初步状态通知。切忌在事故活跃期深入根因分析——优先恢复服务,详细诊断留待系统稳定后进行。

    这个技能支持哪些事故管理工具?


    Incident Responder 提供与主流事故管理平台的集成最佳实践,包括 PagerDuty(告警升级和响应协调)、Opsgenie(事故管理和 on-call 排班)、ServiceNow(ITSM 集成和变更关联)、Slack/Teams(战情室沟通和 ChatOps 自动化)。它也涵盖可观测性工具链如 OpenTelemetry、Prometheus、Grafana、ELK、DataDog 等的使用建议。

    注意事项


  • 该技能专注于事件响应管理和 SRE 最佳实践,不涉及具体的代码修复或基础设施配置

  • 强调 blameless 文化——事故分析聚焦于系统、流程和工具改进,而非个人责任

  • 建议在生产事故前预先演练响应流程,熟悉 runbook 和沟通模板