作为pdfbox用户的新手,我计划在表中提取数据,但是应该在表的边界线的帮助下处理具有特殊格式的表,例如合并列 Headers . 因此,应提取文本的坐标和至少表格的水平边界线 .

为了从表中提取文本,我使用 PDFTextStripper 来获取 TextPosition 对象的列表;为了从同一页面中提取水平线,我使用 PDFGraphicsStreamEngine 来提取描边的 GeneralPath 对象列表,并在描边的 GeneralPath 对象中,有相应的 Rectangle2D 对象表示该行(height = 0) . 但似乎 TextPosition 对象的上述坐标和 GeneralPath 对象的坐标不在同一象限中,而是从同一原点开始具有不同的Y轴光线 .

根据我的调查, TextPosition 对象的原点是左上角,而 Rectangle2D 的原点是左下角,每个Y轴的方向彼此不同 .

首先,我想确认我的调查是对的 . 如果是这样,我想得到一些关于如何将 Rectangle2DTextPosition 的坐标放入同一象限的提示 .

提前致谢