prometheus-configuration
部署Prometheus以实现对基础设施和应用程序的全面指标收集、存储与监控。适用于实施指标收集、搭建监控基础设施或配置告警系统的场景。
作者
分类
开发工具安装
热度:4
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-prometheus-configuration&locale=zh&source=copy
Prometheus Configuration - 全面监控配置指南
技能概述
Prometheus Configuration 提供从安装到生产部署的完整配置指南,帮助您构建指标采集、告警规则和服务发现的企业级监控方案。
适用场景
1. Kubernetes 集群监控
使用 Helm 快速部署 Prometheus,通过 Kubernetes 服务发现自动采集 Pod 和 Node 指标,配合告警规则实现集群健康监控。
2. 应用性能监控
配置应用指标端点采集,使用记录规则预计算常用查询(如 P95 延迟、错误率),通过告警规则及时发现性能异常。
3. 基础设施监控
部署 Node Exporter 采集服务器指标,配置静态或文件服务发现,实现 CPU、内存、磁盘等资源的全面监控。
核心功能
抓取配置 (Scrape Configurations)
支持静态目标配置、文件服务发现和 Kubernetes 服务发现等多种方式,灵活采集应用和基础设施指标。通过 relabel_configs 可以动态添加标签、过滤目标和重写指标路径。
记录规则 (Recording Rules)
为高频查询预计算结果,降低查询负担。支持 API 指标(请求速率、错误率、延迟分位数)和资源指标(CPU、内存、磁盘使用率)的规则定义。
告警规则 (Alert Rules)
基于 PromQL 表达式定义告警条件,支持多级别严重性(critical、warning)和富文本注释。包含服务可用性、错误率、延迟和资源使用等常用告警模板。
常见问题
Prometheus 默认抓取间隔是多少?如何调整?
默认抓取间隔是 15 秒(scrape_interval: 15s),评估间隔也是 15 秒(evaluation_interval: 15s)。可以在 prometheus.yml 的 global 部分全局调整,也可以为单个 job 单独设置间隔。生产环境建议根据业务需求设置为 15-60 秒之间。
如何在 Kubernetes 中配置 Prometheus 服务发现?
使用 kubernetes_sd_configs 配置 Kubernetes 服务发现,通过 role 参数指定发现类型(pod、service、node 等)。配合 relabel_configs 可以根据注解(annotations)过滤目标、设置指标路径和端口。例如,通过
prometheus.io/scrape: "true" 注解标记需要采集的 Pod。Prometheus 告警规则中的 for 参数是什么意思?
for 参数指定告警触发前需要持续满足条件的时间长度。例如
for: 5m 表示指标连续 5 分钟超过阈值才会触发告警,用于避免瞬时波动导致的误报。对于服务宕机等严重告警通常设置 1 分钟,资源使用率等告警通常设置 5 分钟。技能边界说明
本技能专注于 Prometheus 配置,不涉及以下内容: