首页 文章

使用Grafana监控Kubernetes:使用最新的Prometheus版本丢失大量数据

提问于
浏览
1

我有一个工作Kubernetes集群,我想用Grafana监控 .

我一直在尝试从https://grafana.com/dashboards开始的许多仪表板,但它们似乎都有一些问题:看起来Prometheus度量标准名称和仪表板期望的内容不匹配 .

例如,如果我看一下最近发布的,非常受欢迎的仪表板:https://grafana.com/dashboards/5309/revisions

运行时我最终会遇到很多“漏洞”:

grafana dashboard with missing values

查看面板配置,我发现问题来自小的密钥更改,例如 node_memory_Buffers 而不是 node_memory_Buffers_bytes .

同样,当Prometheus提供 node_disk_written_bytes_total 时,仪表板需要 node_disk_bytes_written .

我已经尝试了很多特定于Kubernetes的仪表板,我几乎都遇到了同样的问题 .

难道我做错了什么?

1 回答

  • 3

    Prometheus节点导出器更改了0.16.0版本中的许多度量标准名称,以符合新的命名约定 .

    https://github.com/prometheus/node_exporter/releases/tag/v0.16.0

    重大更改此版本包含对度量标准名称的重大更改 . 许多度量标准都具有新名称,标签和标签值,以符合当前的命名约定 . Linux node_cpu指标现在将客户值分解为单独的指标 . 许多计数器指标已重命名为包含_total . 许多度量标准已重命名/修改为包含基本单位,例如node_cpu现在为node_cpu_seconds_total .

    另见upgrade guide . 其中一个建议是使用compatibility rules,它将使用旧名称创建重复的指标 .

    否则,在仪表板更新之前使用版本0.15.x,或者修复它们!

相关问题