首页 文章

弹性搜索索引Internet

提问于
浏览
1

这主要是弹性搜索的设计模式问题 .

如果我想用Elastic Search索引Internet,那么组织这样一个任务的最有效方法是什么?

@kimchy讨论了不同的模式,并且讨论了扩展大规模集群的问题,但是在看完这些模型之后,我还没有意识到如何组织互联网索引 .

我认为逻辑上你可以通过为每个域创建一个新索引来组织这样的努力 . 所以你可能会对像Stackoverflow.com这样的索引严重破坏,但对于像momandpopsite.com这样的索引,可能只有1个分片

这对ES社区有效吗?我不确定,因为我们可以很快进入数百万个索引,更不用说他们各自的分片了 . 而现在我想知道这种类型的设计是否存在大量开销,并且它变得臃肿 . (也就是说,这种模式的结构是否会产生太多开销?) .

我知道这个问题必须是理论上的,因为没有指定资源 . 但是,如果你可以运用你的想象力并试图完全坚持设计策略 - 你会如何索引万维网?可以说有2.75亿个域名 . 使用弹性搜索索引互联网的最有效设计模式是什么?

1 回答

  • 1

    每个域的索引(因此2.75亿个索引)是不可行的 . 索引确实有开销,我丢失了引用,但我认为你不希望单个“普通”服务器上有超过100个索引 .

    要将更多站点放入单个索引中,您可能需要引入路由和视图,但我认为所有内容的单个索引也会引入不必要的开销 . 我猜,但是查找路由规则可能会变得非常大等等 . 所以你想找到一些在索引之间拆分的方法 . 如此高的音量,您无法在纸上设计所有内容,因此我建议PoC工作确定您为不同大小的索引获得的性能 . 然后,您将使用别名正确映射到基础索引 .

    进一步阅读:https://groups.google.com/forum/#!searchin/elasticsearch/index $ 20per $ 20user / elasticsearch / i-G5NlP1VeY / PK9vVP0myAgJ

    https://groups.google.com/forum/#!msg/elasticsearch/9L5cWIAib94/K7zdHEW-4P0J

相关问题