首页 文章

警告缺少系列/数据

提问于
浏览
0

我正在努力了解当指标不再被删除时,如何让Grafana提醒我 .

我在这个例子中使用的度量是 mongodb_instance_uptime_seconds . 当实例关闭时,不再生成度量标准,导致Prometheus中缺少度量标准 . 此时警报触发 when last() query(A, 1m, now) < 600 . 正如您所看到的,目标是在正常运行时间低于5分钟时发出警报 . 意思是我想提醒重启和停止,但Grafana不会在一个实例发生故障时发出警报,因为 last() 值实际上不存在,当实例停机超过5分钟时,它甚至不再报告 .

有关如何前进的任何线索?

1 回答

  • 1

    通常用于确定是否正在成功抓取实例的度量标准是 up . 它由所有scrape作业自动生成,因此如果您想要关闭任何scrape endpoints 的警报,只需使用查询 up == 0 ,它将显示最后一次刮除不成功的任何 endpoints . 如果您只想为此特定 endpoints 发出警报,请使用如 up{instance="mongodb.foo.com",job="mongo"} == 0 之类的标签

    如果您对使用Alertmanager而不是Grafana感兴趣,那么规则将如下所示:

    groups: - name: General rules: - alert: Endpoint_Down expr: up == 0 for: 5m labels: severity: critical annotations: summary: "Exporter is down: {{ $labels.instance }}" description: "The endpoint {{ $labels.instance }} is not able to be scraped by Prometheus."

相关问题