首页 文章

监控和警告pod状态或使用Google Container Engine(GKE)和Stackdriver重新启动

提问于
浏览
11

有没有办法监控pod状态并重启使用Stackdriver在GKE集群中运行的pod的数量?

虽然我可以看到Stackdriver中所有pod的CPU,内存和磁盘使用情况指标,但似乎无法获得有关由于崩溃而重新启动副本集中的pod或pod的崩溃的指标 .

我正在使用Kubernetes副本集来管理pod,因此它们会在重新生成时重新生成并在崩溃时使用新名称创建 . 据我所知,Stackdriver中的指标由pod-name(在pod的生命周期中是唯一的)显示,这听起来并不合理 .

警告pod故障听起来像是一件很自然的事情,听起来很难相信目前还不支持 . 我从Stackdriver for Google Container Engine获得的监控和警报功能似乎相当无用,因为它们都被绑定到生命周期非常短的pod .

因此,如果这不起作用,那么有关于如何监控持续崩溃的pod的已知变通方法或最佳实践吗?

1 回答

  • 2

    在我的群集(裸机k8s群集)中,我使用kube-state-metrics https://github.com/kubernetes/kube-state-metrics来做你想要的 . 这个项目属于kubernetes repo,很容易使用 . 部署后,您可以使用kube_pod_container_status_restarts此指标来了解容器是否重新启动

相关问题