Prometheus 配置指南 - 监控部署与告警规则完整教程

Prometheus Configuration - 全面监控配置指南

技能概述

Prometheus Configuration 提供从安装到生产部署的完整配置指南，帮助您构建指标采集、告警规则和服务发现的企业级监控方案。

适用场景

1. Kubernetes 集群监控

使用 Helm 快速部署 Prometheus，通过 Kubernetes 服务发现自动采集 Pod 和 Node 指标，配合告警规则实现集群健康监控。

2. 应用性能监控

配置应用指标端点采集，使用记录规则预计算常用查询（如 P95 延迟、错误率），通过告警规则及时发现性能异常。

3. 基础设施监控

部署 Node Exporter 采集服务器指标，配置静态或文件服务发现，实现 CPU、内存、磁盘等资源的全面监控。

核心功能

抓取配置 (Scrape Configurations)

支持静态目标配置、文件服务发现和 Kubernetes 服务发现等多种方式，灵活采集应用和基础设施指标。通过 relabel_configs 可以动态添加标签、过滤目标和重写指标路径。

记录规则 (Recording Rules)

为高频查询预计算结果，降低查询负担。支持 API 指标（请求速率、错误率、延迟分位数）和资源指标（CPU、内存、磁盘使用率）的规则定义。

告警规则 (Alert Rules)

基于 PromQL 表达式定义告警条件，支持多级别严重性（critical、warning）和富文本注释。包含服务可用性、错误率、延迟和资源使用等常用告警模板。

常见问题

Prometheus 默认抓取间隔是多少？如何调整？

默认抓取间隔是 15 秒（scrape_interval: 15s），评估间隔也是 15 秒（evaluation_interval: 15s）。可以在 prometheus.yml 的 global 部分全局调整，也可以为单个 job 单独设置间隔。生产环境建议根据业务需求设置为 15-60 秒之间。

如何在 Kubernetes 中配置 Prometheus 服务发现？

使用 kubernetes_sd_configs 配置 Kubernetes 服务发现，通过 role 参数指定发现类型（pod、service、node 等）。配合 relabel_configs 可以根据注解（annotations）过滤目标、设置指标路径和端口。例如，通过 prometheus.io/scrape: "true" 注解标记需要采集的 Pod。

Prometheus 告警规则中的 for 参数是什么意思？

for 参数指定告警触发前需要持续满足条件的时间长度。例如 for: 5m 表示指标连续 5 分钟超过阈值才会触发告警，用于避免瞬时波动导致的误报。对于服务宕机等严重告警通常设置 1 分钟，资源使用率等告警通常设置 5 分钟。

技能边界说明

本技能专注于 Prometheus 配置，不涉及以下内容：

Grafana 仪表板设计（可使用 grafana-dashboards 技能）

应用代码埋点和指标暴露

Alertmanager 路由和通知配置细节

Thanos/Cortex 等长期存储方案深度配置

prometheus-configuration

作者

分类

安装