我们有一台4台机器的DSE 5.0集群 . 在数据摄取期间,其中一台机器存储了大部分数据(100G),而其他三台机器存储的数据少得多(每台约15G) . 我不知道为什么会这样,并计划调查,并可能在另一个问题上提出要求 .
现在我尝试重新 balancer 群集 . 我所知道的唯一一种方法就是在OpsCenter中单击 Cluster Actions
- > Rebalance
. 重新 balancer 开始并在大约5分钟后重现中止此错误:
Rebalance Failed: java.rmi.UnmarshalException: Error unmarshaling return header; nested exception is:
java.net.SocketTimeoutException: Read timed out
一些数据按照重新 balancer 预览中的建议传输,大部分数据不是 .
事件日志:
Error Rebalance failed: java.rmi.UnmarshalException: Error unmarshaling return header; nested exception is: java.net.SocketTimeoutException: Read timed out admin
Info Moving node xx.xx.xx.xx from token 5848419665553670365 to 2542108353485192999 NODE-04
Info Starting rebalance
可能是什么原因,我该如何调查和修复它?
该集群部署在Azure上的4台专用计算机上 .
1 回答
在数据加载后,您不必重新 balancer 群集 . 您可能希望深入挖掘数据模型,并确保您的分区键能够在环上均匀分布数据 . 在这种情况下,我怀疑是热点 .