首页 文章

在PDF提取时忽略表格

提问于
浏览
0

我试图在Java中创建一个文本处理应用程序,它需要文本作为输入 . 现在我从用户指定的PDF文件中提取此输入 . 我正在使用PdfBox进行文本提取 . 我遇到的问题是PDF文件可能包含表格,方程式和特殊符号,因此PdfBox提取的文本在许多地方都包含垃圾 . 由于这个原因,我的文本处理应用程序无法提供最佳结果 . 我想知道PDF是否具有表的特定格式,以便我可以到达根级别并在提取时将其排除 . 此外,在许多场合,提取的文本包含呈现为“?”的未知字符 . 虽然在实际的PDF中,它们似乎是正常的字母表 . 我也尝试了其他库 - IText,但结果不尽如人意 . 简而言之,我想要的只是从PDF文件中提取简单的句子,排除所有其他垃圾 . 如果有人可以通过建议解决这个问题或其他更好的Java提取库来帮助我,那将是很棒的 . 谢谢 .

2 回答

  • 0

    PDF没有“表格”格式 . 表格由行和文本构成,这就是全部 . 标记的PDF可能有这样的标记,但这些很少见 .

  • 1

    我最近需要从PDF中提取文本以便在Java中进一步处理 - 我使用了Linux命令 pdftotext - 如果你有这个命令可以选择吗?

    编辑:刚刚看到另一篇关于Apache Tika的帖子 - 它有一个PDF(和许多其他)解析器 . 可能对你有用 . http://tika.apache.org/

相关问题