我've been doing some experiments on pdfbox and I'目前陷入了一个我怀疑与坐标系有关的问题 .
我正在扩展PDFTextStripper以获取pdf页面中每个字符的X和Y.
最初我用ImageIO创建了一个Image,在我收到的位置打印文本,并在我想要的每个参考的底部放一个小标记(不同颜色的矩形),一切似乎都很好 . 但是现在为了避免从pdf中丢失样式,我只想覆盖pdf并添加先前说出的标记,但我得到的坐标在PDPageContentStream中不匹配 .
有关匹配pdf坐标的任何帮助,我从PDFTextStripper - > processTextPosition到视觉坐标
使用版本1.8.11
1 回答
正如评论中所讨论的,这是DrawPrintTextLocations工具的1.8版本,它是2.0版本的示例集合的一部分,它基于更为人熟知的PrintTextLocations示例 . 与2.0版本不同,此版本不显示字体边界框,仅显示文本提取大小,即大小字形(a,e等)的高度 . 它用作文本提取的启发式工具 . 这就是“我得到的文字位置是半身”效果的原因 . 如果你需要边框,最好使用2.0(可能太大了) . 要获得精确的大小,您必须计算每个字形的路径并获得该字形的边界,同样,您需要该版本的2.0版本 .