本周我有一个Solr索引的问题:http://lucene.472066.n3.nabble.com/corrupted-index-in-slave-td4054769.html,
今天,几乎每个请求都开始出现这种错误,我创建了一个JIRA问题,因为我认为这是一个错误https://issues.apache.org/jira/browse/SOLR-4707
正如你所看到的,最后它是由于Solr主从复制失败,现在我不知道我们是否应该考虑迁移到SolrCloud,因为Solr主从复制似乎不适合我们的要求:
-
索引大小:〜2000万个文件,~9GB
-
~1200更新/分钟
-
~10000次查询/分钟(分布在2个从站上)MoreLikeThis,RealTimeGet,TermVectorComponent,SearchHandler
如果有人能帮助我回答这些问题,我会感谢你:
-
迁移到SolrCloud是否可取?它会对复制性能产生影响吗?
-
在这种情况下,会有更好的表现吗?在每个服务器中维护索引的副本,还是使用分片服务器?
-
您会建议多少个分片和副本以确保高可用性?
亲切的问候,
胜利者
1 回答
那么,回答你所有的问题取决于你想从solrcloud到底想要什么 .
是的,建议转到solrcloud,因为它提供高可用性,可扩展性和近实时搜索以及自动化 hot replication . 但这些功能的代价是性能略有下降(即使在配置良好的群集中也需要注意) .
我建议你应该使用共享配置来让solr为你维护索引数据(如果你这样做,我相信你会给TechOps人带来微笑) . 这也将减少人为错误和资源需求 .
对上一个问题的回答完全取决于您的 Cloud 部署 . 您应该尝试使用2个shard 2副本配置,然后创建测试部署以确保它满足您的需求 . 如果不是,请尝试使用不同的分片和副本计数组合,直到获得你想要什么(我知道它的痛苦!) .
最后不要忘记估计您未来的增长(您将在未来几年内向群集添加多少数据),并记住您应该决定分片和副本