Solr中Nutch文档的语言检测-Java 学习之路

如何使用Solr对通过nutch爬行获得的文档进行语言识别？

我安装了Nutch 1.9和Solr 4.8.1 . 我在Solr Admin页面中通过Core Admin添加了一个名为 "core-test" 的新核心，我在文档索引期间按照Solr wiki中的步骤进行语言检测 .

我通过添加字段修改了core-test / conf中的schema.xml

<field name="language_s" type="string" stored="true" indexed="true"/>

然后，我使用Nutch来抓取一组网页

crawl seed.txt Test http://localhost:8983/solr/core-test 2

Nutch工作正常，但文档的语言未被识别，即当我在http://localhost:8983/solr/#/core-test/query中进行查询并且 q 设置为 ":" 时，我没有获得字段 language_s .

1 回答