在PDF提取时忽略表格-Java 学习之路

我试图在Java中创建一个文本处理应用程序，它需要文本作为输入 . 现在我从用户指定的PDF文件中提取此输入 . 我正在使用PdfBox进行文本提取 . 我遇到的问题是PDF文件可能包含表格，方程式和特殊符号，因此PdfBox提取的文本在许多地方都包含垃圾 . 由于这个原因，我的文本处理应用程序无法提供最佳结果 . 我想知道PDF是否具有表的特定格式，以便我可以到达根级别并在提取时将其排除 . 此外，在许多场合，提取的文本包含呈现为“？”的未知字符 . 虽然在实际的PDF中，它们似乎是正常的字母表 . 我也尝试了其他库 - IText，但结果不尽如人意 . 简而言之，我想要的只是从PDF文件中提取简单的句子，排除所有其他垃圾 . 如果有人可以通过建议解决这个问题或其他更好的Java提取库来帮助我，那将是很棒的 . 谢谢 .

2 回答

0

PDF没有“表格”格式 . 表格由行和文本构成，这就是全部 . 标记的PDF可能有这样的标记，但这些很少见 .

回复于 2024-04-24T23:15:56+08:00
1

我最近需要从PDF中提取文本以便在Java中进一步处理 - 我使用了Linux命令 pdftotext - 如果你有这个命令可以选择吗？

编辑：刚刚看到另一篇关于Apache Tika的帖子 - 它有一个PDF（和许多其他）解析器 . 可能对你有用 . http://tika.apache.org/

回复于 2024-04-24T23:15:56+08:00

在PDF提取时忽略表格

2 回答

相关问题