我有一个包含4个节点的ES集群:
number_of_replicas: 1
search01 - master: false, data: false
search02 - master: true, data: true
search03 - master: false, data: true
search04 - master: false, data: true
我不得不重新启动search03,当它返回时,它重新加入群集没有问题,但留下了7个未分配的分片 .
{
"cluster_name" : "tweedle",
"status" : "yellow",
"timed_out" : false,
"number_of_nodes" : 4,
"number_of_data_nodes" : 3,
"active_primary_shards" : 15,
"active_shards" : 23,
"relocating_shards" : 0,
"initializing_shards" : 0,
"unassigned_shards" : 7
}
现在我的群集处于黄色状态 . 解决此问题的最佳方法是什么?
-
删除(取消)分片?
-
将分片移动到另一个节点?
-
将分片分配给节点?
-
更新'number_of_replicas'到2?
-
还有其他什么吗?
有趣的是,当添加一个新索引时,该节点开始处理它并与群集的其余部分一起玩得很好,它只是留下未分配的分片 .
关注问题:我是否做错了导致这种情况发生在一开始?对重新启动节点时以这种方式运行的集群,我没有多少信心 .
NOTE: 如果由于某种原因正在运行单个节点群集,则可能只需执行以下操作:
curl -XPUT 'localhost:9200/_settings' -d '
{
"index" : {
"number_of_replicas" : 0
}
}'
19 回答
我尝试删除未分配的分片或手动将它们分配给特定的数据节点 . 它没有用,因为未分配的碎片不断出现, Health 状况一遍又一遍“红” . 然后我注意到其中一个数据节点处于“重启”状态 . 我减少了数据节点的数量,杀了它 . 问题不再可再生 .
未分配分片的另一个可能原因是您的群集正在运行Elasticsearch二进制文件的多个版本 .
这可能是未分配的分片的根本原因 .
Elastic Documentation - Rolling Upgrade Process
默认情况下,Elasticsearch将动态地为节点重新分配分片 . 但是,如果您已禁用分片分配(可能您执行了rolling restart并忘记重新启用它),则可以重新启用分片分配 .
然后Elasticsearch将正常重新分配分片 . 这可能很慢,考虑提高
indices.recovery.max_bytes_per_sec
和cluster.routing.allocation.node_concurrent_recoveries
以加快速度 .如果您仍然遇到问题,可能还有其他问题,请查看Elasticsearch日志中的错误 . 如果你看到
EsRejectedExecutionException
你的线程池may be too small .最后,您可以使用reroute API明确地将分片重新分配给节点 .
好的,我已经在ES支持的帮助下解决了这个问题 . 在所有节点(或您认为是导致问题的节点)上向API发出以下命令:
<index>
是你认为是罪魁祸首的指数 . 如果您不知道,只需在所有节点上运行:我还将此行添加到我的yaml配置中,从那时起,服务器/服务的任何重新启动都没有问题 . 碎片立即重新分配回来 .
FWIW,为了回答一个经常被追捧的问题,将MAX_HEAP_SIZE设置为30G,除非您的机器具有低于60G的RAM,在这种情况下将其设置为可用内存的一半 .
参考文献
这个小小的bash脚本会强行重新分配,你可能会丢失数据 .
唯一对我有用的是更改number_of_replicas(我有2个副本,所以我将其更改为1然后再更改为2) .
第一:
然后:
(我已经在this question找到了答案)
如果将以下配置设置为all,则Elasticsearch会自动分配分片 . 可以使用rest api as well cluster.routing.allocation.enable: all 设置此配置
如果即使在应用下面的配置后,es也无法自动分配分片,那么你必须自己强制分配分片 . ES official link for this
我编写了一个脚本来强制在集群中分配所有未分配的分片 .
下面的数组包含要在其中 balancer 未分配的分片的节点列表
我遇到了完全相同的问题 . 这可以通过在重新启动elasticsearch之前临时将分片分配设置为false来防止,但如果它们已经存在,则不会修复未分配的分片 .
在我的情况下,这是由数据节点上缺少可用磁盘空间引起的 . 未分配的分片,在重新启动后仍在数据节点上,但主分机无法识别 .
只需清理磁盘中的1个节点就可以开始复制过程了 . 这是一个相当慢的过程,因为所有数据都必须从1个数据节点复制到另一个数据节点 .
我今天遇到了同样的分片分配问题 . W. Andrew Loe III在他的回答中提出的脚本对我不起作用,所以我稍微修改了一下它最终起作用了:
现在,我不是一个Bash大师,但脚本真的适合我的情况 . 请注意,您需要为“ES_HOST”和“NODE”变量指定适当的值 .
就我而言,达到了硬盘空间上限 .
看看这篇文章:https://www.elastic.co/guide/en/elasticsearch/reference/current/disk-allocator.html
基本上,我跑了:
因此,如果使用<90%的硬盘空间,它将分配,如果使用> 95%的硬盘空间,则将分片移动到群集中的另一台机器;它每1分钟检查一次 .
也许它对某人有帮助,但我遇到了同样的问题,这是由于日志变得太大而导致存储空间不足 .
希望它可以帮到某人! :)
我有同样的问题,但根本原因是版本号的差异(两个节点上的1.4.2(有问题)和两个节点上的1.4.4(ok)) . 第一个和第二个答案(将“index.routing.allocation.disable_allocation”设置为false并将“cluster.routing.allocation.enable”设置为“all”)不起作用 .
但是,@ Wilfred Hughes的答案(使用transient将“cluster.routing.allocation.enable”设置为“all”)给出了以下语句的错误:
更新后旧节点到1.4.4这些节点开始与其他好节点重新绑定 .
我也遇到了这个问题,我找到了解决问题的简单方法 .
NOTE: 在我的情况下,索引是2016-04-21当天的logstash
在我的情况下,当我创建一个新的 index 时,默认的 number_of_replicas 设置为1.并且我的集群中的节点数量只有一个,因此没有额外的节点来创建副本,因此 Health 状况变为黄色 . 所以当我使用 settings 属性创建索引并将 number_of_replicas 设置为0.然后它工作正常 . 希望这可以帮助 .
我也遇到了这种情况,最后修好了 .
首先,我将描述我的情况 . 我在ElasticSearch集群中有两个节点,它们可以互相找到,但是当我创建一个设置为 "number_of_replicas" : 2 ,"number_of_shards":5的索引时,ES显示黄色信号,unassigned_shards为5 .
出现问题是因为 number_of_replicas 的值,当我用 1 设置它的值时,一切都很好 .
在我的情况下,具有旧共享的旧节点正在加入群集,因此我们必须关闭旧节点并使用未分配的分片删除索引 .
我尝试了上面的一些建议,不幸的是没有一个有效 . 我们在较低的环境中有一个“日志”索引,应用程序会在其中编写错误 . 它是单节点集群 . 为我解决的是检查节点的YML配置文件,并发现它仍然具有默认设置“gateway.expected_nodes:2” . 这超越了我们拥有的任何其他设置 . 每当我们在这个节点上创建索引时,它会尝试将3个分片中的3个分散到虚拟第2个节点 . 因此,它们将显示为未分配,并且永远不会移动到第1个且唯一的节点 .
解决方案是编辑配置,将设置“gateway.expected_nodes”更改为1,因此它将退出查找群集中永远不会被发现的兄弟,并重新启动Elastic服务实例 . 此外,我不得不删除索引,并创建一个新索引 . 创建索引后,分片全部显示在第一个节点上,并且没有一个节点未分配 .
对我来说,通过从开发控制台运行它来解决这个问题:“POST / _cluster / reroute?retry_failed”
.....
我首先查看索引列表,看看哪些索引是红色然后运行
“得到/_cat/shards?h=[INDEXNAME],shard,prirep,state,unassigned.reason”
并且看到它的分片卡在ALLOCATION_FAILED状态,因此运行上面的重试会导致它们重新尝试分配 .
可能有帮助,但在尝试以嵌入模式运行ES时遇到了这个问题 . 修复是为了确保Node具有本地(true)设置 .