从PDF中提取表格数据[关闭]-Java 学习之路

有没有一致的方法从PDF文件中提取表格？有工具吗？

What I have done so far:

What is the problem with this:

PDF文档中是否有任何标记表示表格结构？像HTML中的 <table> ， <tr> 和 <td> ？

如果“是”，任何对此的指示都会有所帮助 . 如果“不”，关于这个事实的明确信息也是有帮助的 .

2 回答

6

如果PDF文档错过了将内容标记为表，行，单元格等（称为标记）的信息，则没有一致的方法从PDF文档中提取表 . 大多数情况下，PDF文档不包含这些标记 . 这些标签通常用于使PDF可访问，以便例如可以大声朗读 . PDF无需使用这些标记 .

回复于 2024-05-03T03:35:26+08:00
12

但是，您可以使用 pdftotext -layout input.pdf output.txt . 它在文本文件中打印pdf并包含原始布局 . 没有标签，但有一些漂亮的脚本（perl / php /等），你可以从表中恢复数据 .

如果您正在处理单个页面，那么您最好手动完成它，但如果您（像我一样）必须处理100页或1000页的页面，那么它就是您可以获得的最佳效果 . 我一直在寻找很长一段时间，找不到比pdftotext更好的pdf-2文本工具 .

输出中存在一些不一致，并非所有类似的pdf表都产生类似的txt输出，但这会使您的脚本更有趣 .

回复于 2024-05-03T03:35:26+08:00