我想使用PDFBox的 PDFTextStripper 类从PDF中提取一些文本 . 我通过扩展 PDFTextStripper 并解析Stripper类提取的 TextPosition 实例来实现 . 然后我使用这些cooridnates来实现自定义HTML查看器 .

这适用于10个PDF中的9个 . 但是一些PDF会引起一些麻烦 . 有时PDFBox会识别文本,但TextLocation不匹配 . 一个例子:

我解析提取的文本的位置,并在coordiates显示div . 您可以假设我的计算是正确的 . 它们适用于我使用的所有其他PDF .

我遇到问题的PDF的坐标低于实际文本:

故障必须在PDFBox的某个地方,因为我可以正确选择其他PDF查看器中的文本(例如PDF.js),并且文本层div正确放置 .

不,我想知道: What are the options to configure and fine tune the text location in PDFBox?

先感谢您!