incident-response-incident-response

在处理事件响应时使用

作者

安装

热度:6

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-incident-response-incident-response&locale=zh&source=copy

Incident Response - 多智能体事件响应与故障处理技能

技能概述


这是一个基于现代 SRE 实践的事件响应技能,通过多智能体协作快速处理生产事故,实现从检测、分析、修复到复盘的全流程自动化。

适用场景

1. 生产环境故障响应


当生产系统出现服务宕机、性能降级或安全事件时,该技能可以快速启动多智能体协作流程,自动进行事故分类、可观测性分析和根本原因定位,帮助团队在 SLA 要求的时间内恢复服务。

2. SRE 团队事故管理


适用于遵循 SRE 最佳实践的团队,通过定义的严重等级(P0-P3)和标准化响应流程,确保每次事故都能得到及时、有序的处理,并通过无责复盘将经验转化为团队知识。

3. DevOps 故障排查与复盘


需要快速定位问题根因并生成复盘文档的场景,技能会协调调试、可观测性、安全、性能等多个专业智能体,提供完整的故障分析和改进建议。

核心功能

多智能体协作的事件指挥系统


实现完整的 Incident Command System(ICS),包括事件检测与分类、可观测性分析、深度系统调试、安全评估、性能分析、修复实施、部署验证、利益相关方沟通和事后复盘等13个关键环节,每个环节由专门的智能体负责。

自动化事故分类与影响评估


根据监控数据和 SLO 违规情况,自动将事故分为 P0(完全宕机/安全漏洞)到 P3(仅界面问题)四个等级,并评估对用户和业务的影响范围,为后续响应决策提供依据。

无责复盘与持续改进


在事故解决后自动生成符合 SRE 标准的无责复盘文档,记录完整时间线、根本原因、响应过程中的优缺点,并生成具体的行动项和监控改进建议,确保每次事故都成为团队学习的机会。

常见问题

这个技能适合什么样的团队使用?


适合具有一定规模的 SRE、运维或 DevOps 团队,特别是那些需要处理复杂分布式系统故障、希望将事故处理流程标准化和自动化的团队。如果你的系统用户量较小、事故频率低,可能不需要这么完整的流程。

技能如何判断事故的严重等级?


技能通过分析监控告警、SLO 违规情况、用户影响范围和业务风险来综合判断。P0 级别意味着完全服务中断、安全漏洞或数据丢失,需要立即全员响应;P1 级别是严重性能降级;P2 和 P3 级别影响相对有限。

什么情况下需要进行无责复盘?


任何 P0 或 P1 级别的事故都应该进行无责复盘。对于 P2 和 P3 级别的事故,如果涉及新的故障模式、暴露了系统脆弱点,或者有重要的经验教训值得分享,也建议进行复盘。无责复盘的核心是关注系统问题而非个人责任。