我've installed solr 4.6.0 and follow the tutorial available at Solr'的主页 . 一切都很好,直到我需要做一份我即将做的真正的工作 . 我必须快速访问维基百科内容,我被建议使用Solr . 好吧,我试图按照链接http://wiki.apache.org/solr/DataImportHandler#Example:_Indexing_wikipedia中的示例,但我无法知道data_config.xml是什么意思!
<dataConfig>
<dataSource type="FileDataSource" encoding="UTF-8" />
<document>
<entity name="page"
processor="XPathEntityProcessor"
stream="true"
forEach="/mediawiki/page/"
url="/data/enwiki-20130102-pages-articles.xml"
transformer="RegexTransformer,DateFormatTransformer"
>
<field column="id" xpath="/mediawiki/page/id" />
<field column="title" xpath="/mediawiki/page/title" />
<field column="revision" xpath="/mediawiki/page/revision/id" />
<field column="user" xpath="/mediawiki/page/revision/contributor/username" />
<field column="userId" xpath="/mediawiki/page/revision/contributor/id" />
<field column="text" xpath="/mediawiki/page/revision/text" />
<field column="timestamp" xpath="/mediawiki/page/revision/timestamp" dateTimeFormat="yyyy-MM-dd'T'hh:mm:ss'Z'" />
<field column="$skipDoc" regex="^#REDIRECT .*" replaceWith="true" sourceColName="text"/>
</entity>
</document>
</dataConfig>
我在Solr主目录中找不到 . 此外,我试图找到一些与我有关的问题,How to index wikipedia files in .xml format into solr和Indexing wikipedia dump with solr,但它们并没有解决我的疑问 .
我认为我需要一些更基本的东西,一步一步地指导我,因为在处理索引维基百科时,教程很混乱 .
任何向folow提供指示的建议都会很好 .
2 回答
每个Solr实例都使用三个主文件配置:solr.xml,solrconfig.xml,schema.xml和data_config.xml文件在您使用DIH组件时定义数据源,此URL对您有用:DIH .
你应该从这里开始:https://cwiki.apache.org/confluence/display/solr/Running+Solr
好吧,我在网上看了很多东西,试图收集尽可能多的信息 . 这就是我找到解决方案的方法:
这是我的solrconfig.xml:
这是我的data-config.xml :(重要的是:它必须位于solrconfig.xml的同一文件夹中)
注意:最后一行非常重要!
我的schema.xml:
它已经完成了 . 这就是所有人!