作为pdfbox用户的新手,我计划在表中提取数据,但是应该在表的边界线的帮助下处理具有特殊格式的表,例如合并列 Headers . 因此,应提取文本的坐标和至少表格的水平边界线 .
为了从表中提取文本,我使用 PDFTextStripper
来获取 TextPosition
对象的列表;为了从同一页面中提取水平线,我使用 PDFGraphicsStreamEngine
来提取描边的 GeneralPath
对象列表,并在描边的 GeneralPath
对象中,有相应的 Rectangle2D
对象表示该行(height = 0) . 但似乎 TextPosition
对象的上述坐标和 GeneralPath
对象的坐标不在同一象限中,而是从同一原点开始具有不同的Y轴光线 .
根据我的调查, TextPosition
对象的原点是左上角,而 Rectangle2D
的原点是左下角,每个Y轴的方向彼此不同 .
首先,我想确认我的调查是对的 . 如果是这样,我想得到一些关于如何将 Rectangle2D
和 TextPosition
的坐标放入同一象限的提示 .
提前致谢