我们已经开始使用prometheus来监控我们的基础设施 . 一项服务配置了以下警报:
这样,如果“up”为零或者没有可达的指标,我们会收到警报 .
现在我们想要一个grafana“单一统计”面板,显示服务的“正常运行时间”,但“缺席”不能与“avg_over_time”一起使用,有一个选项可以在我们的正常运行时间面板中包含“缺席”等内容吗?
你可以用这样的东西来近似它:
sum_over_time(up{job="service"}[24h]) / sum_over_time(up{job="prometheus"}[24h])
这会将记录您的服务的样本数量(在过去24小时内)除以记录Prometheus“up”的样本数量 .
否则,您可以使用录制规则记录类似于警报条件的内容,如果您的服务已启动,则值为1,否则为0 . 然后,您可以在该指标上使用 avg_over_time() .
avg_over_time()
1 回答
你可以用这样的东西来近似它:
这会将记录您的服务的样本数量(在过去24小时内)除以记录Prometheus“up”的样本数量 .
否则,您可以使用录制规则记录类似于警报条件的内容,如果您的服务已启动,则值为1,否则为0 . 然后,您可以在该指标上使用
avg_over_time()
.