首页 文章
  • 0 votes
     answers
     views

    ELK中的Kibana / ES / Lucene - 按消息子字符串分组(没有计算字段)

    我们使用ELK堆栈采用了集中式日志记录 . 但是,我对如何根据内容的子字符串(或正则表达式或更复杂的处理)对邮件进行分组感到茫然 . 例: 消息1:已删除的对象ID [123] 消息2:合并对象id [123]至[456] 消息3:未能将对象ID [123]合并到[789] 等等 . 我希望能够在回答特定过滤器的消息(例如"failed to merge")上进...
  • 0 votes
     answers
     views

    在高基数列上使用cassandra-lucene-index

    我有一个用例,需要在Cassandra上选择Stratio cassandra-lucene-index或Elastic Search . 我更倾向于 Stratio implementation ,因为它不需要创建/管理ES集群 . 但是,以下方案将解决方案实施置于困境 . Cassandra lucene Index 在高基数列上创建,例如 colA 在密钥空间 Test (Keyspace有...
  • 3 votes
     answers
     views

    需要Lucene查询优化建议

    我在我的网站上使用Lucene.User在基于网络的工作搜索应用程序上工作,可以搜索距离“波士顿,马萨诸塞州”或任何其他位置100英里范围内的工作 . 另外,我需要按降序显示按“相关性”(即lucene返回的分数)排序的搜索结果 . 我正在使用第三方API来获取城市给定半径范围内的所有城市 . 这个API让我回到“波士顿,马萨诸塞州”方圆100英里范围内的大约864个城市 . 我正在使用以下逻辑构...
  • 0 votes
     answers
     views

    优化lucene搜索性能

    我有一个应用程序,将新闻存储( Headers ,正文)作为lucene文档中的单独字段在搜索时,我需要创建一个提升 Headers 的查询 . ( Headers 在搜索中更重要)但它会降低搜索速度 . 一个优化提示告诉我,我可以将这两个字段合并为一个,它绝对加快了搜索和索引,但我放弃了我想要搜索的评分(提升 Headers 超过正文) 反正有没有结合好处?
  • 0 votes
     answers
     views

    lucene的自定义排序

    我有包含( Headers ,内容,日期时间)等字段的文档我想用以下公式对结果进行排序 1)冠军提升2.5 2)内容提升1.5 3)重要(提升那些较新的文件意味着日期时间字段接近今天日期)提升3 如何根据上述标准编写查询,我应该为#3做些什么 任何帮助都会非常感激 .
  • 1 votes
     answers
     views

    用户搜索输入的最佳lucene查询

    我有1,000,000条记录的新闻存储我使用lucene库进行全文搜索我的新闻( Headers ,正文,新闻日期,...)我需要找到最好的查询,以便从用户输入找到最相关的结果我应该采用什么策略或算法用来实现这一目标 现在我使用这样的东西( Headers ^ 3.0 body ^ 2.0),但我认为它很简单,我正在寻找更复杂的算法,以获得更相关的结果 . 如果你帮助我找到我的溢出的朋友,我真的很...
  • 4 votes
     answers
     views

    Lucene地理距离排序性能

    我的任务是不仅通过索引文档的字符串字段的相关性来对搜索结果进行排序,而且还通过从给定地理点到与被索引的每个文档相关联的点的距离来对搜索结果进行排序 . 应该提到的是,结果集中只应包含前十个匹配的文档 . 按精确距离排序并不重要,只有给定点的“距离水平”很重要 . 从技术上讲,我已成功实施了该任务 . 该任务的地理部分是作为 CustomScoreQuery -来源类实现的: private sta...
  • 0 votes
     answers
     views

    如何在Solr中对产品搜索结果进行排序/提升

    我的文件是典型的电子商务目录产品,比方说足球鞋 . 这是一个字段子集: id Headers 说明 sold_units(整数) available_units(整数) new(布尔值) 我现在的排序标准是: new desc, sold_units desc, available_units desc . 我想展示“新”产品,然后是畅销产品,然后是最高库存产品 . ...
  • 2 votes
     answers
     views

    elasticsearch节点有多少个分片

    我有一个弹性搜索集群,设置了6个节点(版本2.3.5,16 GB堆) . 我有超过3000个时间序列索引,默认5个分片和一个副本 . 最后,我遇到连接到群集的节点的问题 . 不仅存在4个节点 . 另外两个无法连接 . 他们记录连接到主节点的错误: Caused by: org.jboss.netty.channel.ConnectTimeoutException: connection timed...
  • 1 votes
     answers
     views

    ElasticSearch间歇性空白响应(群集状态:黄色)

    我正在使用ElasticSearch(基于Lucene)进行搜索 . 自切换以来,在过去一个月左右的时间里,我一直没有用户在查询中获得任何结果 . 如果他们刷新,结果将被填充 . 查看日志我没有看到任何错误,所以我假设ElasticSearch有时无法访问索引 . 这不是我索引大量文档的时候 . 有什么东西我可以添加到设置,这将有助于我更好地调试这个?是否有助于调整配置或添加其他群集或节点? 如果...
  • 2 votes
     answers
     views

    在Elasticsearch中将字段映射到类型有什么好处?

    我有大约1000万个非常平坦(如RDBMS行)文档存储在ES中 . 每个文档有10个字段,其中5个字段实际上是枚举 . 我创建了一个映射,将Enum的序数映射到Short,并在索引文档时传递序数 . Elasticsearch是否真的将这些值存储为索引中的Short?或者他们得到.toString()'ed?当我将字段映射到数据类型时,“引擎盖下”实际发生了什么?
  • 22 votes
     answers
     views

    嵌套vs Elasticsearch中的对象

    有人可以解释Elasticsearch中文档中“对象”和“嵌套”字段之间的区别吗? 我知道默认情况下字段被定义为对象 . 我也知道我可以使用这样的点访问对象字段:my_field.name,my_field.title等 . 对象文档:http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/mapping-obje...
  • 0 votes
     answers
     views

    solr Cloud 是否适用于索引脱机的用例?

    Solr Cloud 似乎是未来扩展solr的建议方法 . 我知道传统的缩放方法(如主从和复制)仍然存在 . 我与solr的用例不一定是接近实时(NRT) . 如果新索引的数据在约1天后对搜索者可见,则可以 . 在主从属(legacy缩放)中,我可以每天复制一次 . 在Solr Cloud 中我有这样的选择吗? 此外,我不希望索引在索引时间内影响搜索者的表现 . 有没有办法将索引器与solr Cl...
  • 0 votes
     answers
     views

    Solr Cloud Data Import Handler复制缓慢

    我正在设置一个包含3个节点和3个分片的Solr Cloud部署 . 如果没有复制,我的数据导入处理程序会在约5分钟内非常快速地导入大约1.2M文档 . 这很好,但是当我启用复制时,即重新创建复制因子为2的集合时,数据导入处理程序变得非常慢,对于相同的1.2M文档大约需要1小时30分钟 . 我在3个4x16虚拟服务器上以 Cloud 模式使用solr 5.3.1,每个节点上都有一个zookeeper...
  • 2 votes
     answers
     views

    什么内存缓存实现将花费最少的努力来构建

    我正在开发一个Web应用程序,它需要对可能非常大且不断变化的数据集进行一些内存缓存 . 我和我的合作伙伴正在开始讨论几种解决方案,但希望能够深入了解我们对几种不同解决方案的期望 . 我们的应用程序是用Java编写的,将在glassfish 3.1下运行 redis和webdis hazelcast Apache JCS 用java创建我们自己的 我们也在考虑apache sol...
  • 0 votes
     answers
     views

    引起:java.lang.NoClassDefFoundError:无法初始化类org.elasticsearch.common.lucene.Lucene

    在通过hadoop作业在ES上写作时,它会冻结日志为:引起: java.lang.NoClassDefFoundError :无法初始化类 org.elasticsearch.common.lucene.Lucene ,可能是什么原因? RemoteTransportException [[无法反序列化类型[org.elasticsearch.action.admin.cluster.node....
  • 0 votes
     answers
     views

    借助Latent Dirichlet分配(LDA)或命名实体确定文档的新颖性/相似性

    鉴于索引或数据库包含大量(短)文档(约100万),我正在尝试为每个新传入的文档进行某种新颖性检测 . 我知道我必须计算新文档与索引中每个文档的相似性 . 如果相似性低于某个阈值,则可以将该文档视为新颖的 . 一种常见的方法 - 我想做的 - 是使用向量空间模型并计算余弦相似度(例如,通过使用Apache Lucene) . 但是这种方法有两个缺点: 1) 它的计算成本很高,并且它没有分别包含文档和...
  • 2 votes
     answers
     views

    如何使用solrj将solr搜索响应转换为POJO时添加文档的搜索分数

    我正在使用SolrJ与Solr实例进行交互 . 我只想获得Solr针对特定搜索查询返回的每个文档的搜索分数 . 如果我使用@Field注释在我的POJO中添加一个得分字段,它在检索文档时完全正常 . 当我尝试通过相同的POJO索引某些内容时,Solr会返回一个错误,指出未知字段“得分”,因为我的Solr架构中没有任何名为“score”的字段 . 但是,如果我在我的Solr架构中添加一个名为“sco...
  • 1 votes
     answers
     views

    SOLR Spellcheck没有返回结果

    我对solr 6.5.0的拼写检查组件有一个恼人的问题 . 如果我通过拼写检查请求处理程序/ spell运行查询,则查询按预期工作,我会得到错误单词的建议拼写 . { "responseHeader":{ "status":0, "QTime":42}, "response":{"nu...
  • 15 votes
     answers
     views

    突出显示时,Solr性能非常慢

    我配置了Solr 4.4.0核心,其中包含大约630k文档,原始大小约为10 GB . 为了查询和突出显示,每个字段都被复制到 text 字段 . 当我执行没有突出显示的搜索时,结果会返回约 100 milliseconds ,但是当启用突出显示时,同一查询需要 10-11 seconds . 我也注意到 subsequent 对相同术语的查询持续大约相同的10-11秒 . 我对该领域的初始配置...
  • 7 votes
     answers
     views

    Solr / Lucene用上下文查询词形还原

    我已成功为Lucene实施捷克语引理器 . 我正在使用Solr对它进行测试,它在索引时非常适合 . 但是当用于查询时它不能很好地工作,因为查询解析器不向引理器提供任何上下文(前后的单词) . 例如,在索引时比在查询时不同地分析短语 pila vodu . 它使用含糊不清的单词 pila ,这可能意味着 pila (看到例如电锯)或 pít (动词"to drink"的过去时)...
  • 0 votes
     answers
     views

    如何配置solr4.10进行多边形的地理空间搜索

    嗨我想配置solr4.10进行多边形的空间搜索,我已经做了以下更改在schema.xml中我做了如下更改 <fieldType name="location_rpt" class="solr.SpatialRecursivePrefixTreeFieldType" spatialContextFactory=&quot...
  • 8 votes
     answers
     views

    使用“字符串”字段,“文本”字段和“复制”字段与Solr对齐

    我有Solr和Faceting的问题,并想知道是否有人知道修复 . 我现在有一个解决方法,但我真的想知道为什么我的查询不起作用 . 这是我的Schema,简化为更容易理解: <fields> <field name="uniqueid" type="string" indexed="true" required=...
  • 0 votes
     answers
     views

    使用SolrNet形成查询时,追加部分无法按预期工作

    我正在为一个商业网站开发一个Solr,使用ASP.NET MVC构建,并使用SolrNet进行集成 . 除了追加查询参数的搜索处理程序组件配置外,一切正常 . 我指的是http://wiki.apache.org/solr/SearchHandler#Configuration 我想要实现的具体事情是使用solr配置文件中的append part添加搜索查询参数 . 这是从我的solr配置复制的处...
  • 3 votes
     answers
     views

    Spring MVC代码 - 在部署时抛出HSEARCH000103异常

    在我们的springmvc网站上,我们正在使用lucene进行hibernate搜索 . 编译代码时没有问题,但是当我尝试在运行在Ubuntu 14.04 64位服务器上的tomcat 7.0.52上部署代码时,我得到以下异常 INFO:初始化Spring root WebApplicationContext 2015年8月20日下午1:20:10 org.apache.catalina.cor...
  • 1 votes
     answers
     views

    使用Solr和Spring自动完成 - 多个单词的问题

    我使用Spring Data Solr索引了一个位置数据库 . 我有以下字段: <field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" /...
  • 0 votes
     answers
     views

    在 GraphDB 的 Lucene 连接器中使用 wild-cards

    我正在使用 GraphDB 的Lucene 连接器。我在我的三元组商店中为实体代码构建索引my_index,我想使用这样的索引进行子字符串匹配。 例. 实体代码: FooBar FooBaz BazFoo Lucene 连接器: PREFIX :<http://www.ontotext.com/connectors/lucene#> PREFIX inst:<http://ww...
  • 0 votes
     answers
     views

    如何在 GraphDB 全文搜索中创建自定义 AnalyzerFactory?

    (使用 GraphDB 8.1 免费)。 http://graphdb.ontotext.com/documentation/free/full-text-search.html表示我可以通过实现接口com.ontotext.trree.plugin.lucene.AnalyzerFactory,使用luc:analyzer param 为 GraphDB full-text 搜索启用自定义 An...
  • 85 votes
     answers
     views

    lucene 如何索引文件?

    我读了一些关于 Lucene 的文件;我也在这个链接(http://lucene.sourceforge.net/talks/pisa)中阅读了该文件。 我真的不明白 Lucene 如何索引文档并且不了解 Lucene 用于索引的算法? 在上面的链接中,它表示 Lucene 使用此算法进行索引: 增量算法: 维护一堆段索引 为每个传入文档创建索引 将新索引推入堆栈 让 b=...
  • 0 votes
     answers
     views

    lucene 指数匹配

    我正在尝试使用 Lucene 进行 undup 或重复数据删除匹配。基本上我有一个记录文件,我希望根据某些字段(模糊搜索)进行分组,并使用匹配键获取结果,该匹配键告诉我该文件中的哪些记录彼此匹配。 这可能吗?

热门问题