首页 文章

如何停止AWS CloudWatch UnHealthHostCount错误警报?

提问于
浏览
2

我们每天多次收到此消息(通过电子邮件发送):

ALARM:美国的“elb-production-UnHealthHostCount” - N. Virginia您收到此电子邮件是因为您在美国 - 弗吉尼亚州N区的Amazon CloudWatch警报“elb-production-UnHealthHostCount”已进入警报状态,因为“阈值”交叉:1个数据点(0.2)大于阈值(0.0) . “在“2016年1月21日星期四17:39:39 UTC” . 在AWS管理控制台中查看此警报:https://console.aws.amazon.com/cloudwatch/home?region = us-east-1 #s = Alert&alarm = elb-production-UnHealthHostCount警报详细信息: - 名称:elb- production-UnHealthHostCount - 说明: - 状态更改:确定 - >警报 - 状态更改原因:阈值交叉:1个数据点(0.2)大于阈值(0.0) . - 时间戳:2016年1月21日星期四17:39:39 UTC - AWS账户:1234567890阈值: - 当指标为GreaterThanThreshold 0.0持续60秒时,警报处于ALARM状态 . 受监视的度量标准: - MetricNamespace:AWS / ELB - MetricName:UnHealthyHostCount - 维度:[LoadBalancerName = production] - 周期:60秒 - 统计:平均 - 单位:未指定状态更改操作: - 确定: - ALARM:[arn:aws: sns:us-east-1:1234567890:DevOps] - INSUFFICIENT_DATA:

但是,在查看我们的nginx日志文件后,AWS似乎能够在警报发生时大致联系我们的每台服务器"set off" . 换句话说,我们的ec2实例在每个请求返回200到2016年1月21日星期四17:39:39 UTC时 /healthcheck .

AWS似乎每隔30秒左右检查一次我们的实例 .

有没有人遇到过这个问题?如果是这样,你做了什么?

1 回答

  • 0

    我已经更新了一些设置......

    • 每当:UnHealthyHostCount> 0

    • 统计:平均

    ... 至 ...

    • 每当:UnHealthyHostCount> = 1

    • 统计:最大值

    如果我的问题继续发生,我会更新这个答案 .


    更新:

    问题继续发生:/

    我在当前的UnHealthyHostCount警报上更新了一个设置......

    连续1个月

    ... 至 ...

    连续2个周期

    ...我已经创建了一个新警报来跟踪多个服务器是否在一个时间段内关闭...

    enter image description here

    如果我的问题继续发生,我会更新这个答案 .

相关问题