微调PDFBox的PDFTextStripper是可能的-Java 学习之路

我想使用PDFBox的 PDFTextStripper 类从PDF中提取一些文本 . 我通过扩展 PDFTextStripper 并解析Stripper类提取的 TextPosition 实例来实现 . 然后我使用这些cooridnates来实现自定义HTML查看器 .

这适用于10个PDF中的9个 . 但是一些PDF会引起一些麻烦 . 有时PDFBox会识别文本，但TextLocation不匹配 . 一个例子：

我解析提取的文本的位置，并在coordiates显示div . 您可以假设我的计算是正确的 . 它们适用于我使用的所有其他PDF .

我遇到问题的PDF的坐标低于实际文本：

故障必须在PDFBox的某个地方，因为我可以正确选择其他PDF查看器中的文本（例如PDF.js），并且文本层div正确放置 .

不，我想知道： What are the options to configure and fine tune the text location in PDFBox?

先感谢您！

微调PDFBox的PDFTextStripper是可能的