首页 文章

配置SOLR应用程序以索引pdf文档

提问于
浏览
0

我是Apache SOLR / Lucene的新手,但想用它来索引PDF文档 .

我已按照官方教程开始学习:

[Apache SOLR 4.6.0 Tutorial][1]

我能够通过 Headers “索引数据”来指导两个.xml文件,从而达到教程中的要点 .

但是,在该部分的下面的行以及之后的所有部分之后,我无法执行任何操作 .

You have now indexed two documents in Solr, and committed these changes. You can now search for "solr" by loading the "Query" tab in the Admin interface, and entering "solr" in the "q" text box. Clicking the "Execute Query" button should display the following URL containing one result...

它太混乱,信息太少 .

任何人都可以指向一些关于SOLR的基础教程,该教程教授如何配置SOLR和索引.pdf文件 .

从教程看,Solr Cell(ExtractingRequestHandler)似乎是要走的路 . 但是这是什么以及如何使用我参考教程中的步骤进行的设置是我不理解/理解的 .

关于堆栈溢出以及使用SOLR的pdf索引存在一些问题,但它们要么太具体,要么答案太高,无法理解 . 我需要一个基本的逐步教程,用于使用SOLR进行pdf索引 .

谢谢阅读!

1 回答

  • 1

    首先,你应该看看Solr是如何工作的 .

    不是太正式但是接近:

    • :可翻译为

    Solr中的核心 - > SQL中的一个表

    Solr中的文档 - >表中的记录

    文档可以包含任意数量的字段(如表中的列) . (ID,NAME,EMAIL等......)

    字段有一个类型(像一个变量(来自Lucene的类)(String,UUID等...))字段可以被索引(可搜索)和存储(按原样检索) .

    现在你必须决定你想要的实现 . 单核(表)实现是最简单的,但对于Solr的几乎所有用例,您都希望使用多核设置 .

    在您下载的Solr 4.6.0目录中,浏览到示例并使用以下命令运行start.jar: java -Dsolr.solr.home=multicore -jar star.jar

    打开http://localhost:8983/solr浏览,你会通过观察学到很多东西 .

    接下来转到示例下的 multicore 目录 .

    您将看到 solr.xml 文件 . 打开它 . 在底部,您将定义核心 . 添加一行 YOUR_CORE_NAME

    完成后,保存文件,运行 solr . 你会看到一堆错误:找不到 solrconfig.xmlschema.xml 表示 YOUR_CORE_NAME .

    这些文件很重要,因为:

    solrconfig.xml :包含Solr运行时核心(表)的行为方式 . 非常可定制,非常有用,但对于启动Solr的人来说太多了(你可以随时学习) . 现在我要让你从其他核心之一复制 solrconfig.xml .

    schema.xml:这就像您的表定义 . 这是您定义“字段”(列)的位置 . 看一下其他内核的架构并阅读

    http://wiki.apache.org/solr/SchemaXml

    制作一个简单的架构,3个字段 . 密切关注分析仪,现在使用Lucene标准分析仪 . 它非常好,适用于大多数用例 .

    现在目录结构:在 multicore 内,创建一个名为 YOUR_CORE_NAME 的文件夹 .

    YOUR_CORE_NAME 下:创建 conf 文件夹并将 solrconfig.xmlschema.xml 放在此文件夹中 .

    开始 solr . 它现在应该启动而没有任何错误 .

    一旦你有了这个,继续调整 schema.xml 直到你找到你想要的东西 .

相关问题