首页 文章

从PDF中提取表格数据[关闭]

提问于
浏览
6

有没有一致的方法从PDF文件中提取表格?有工具吗?

What I have done so far:

  • 我试过了 pdftotext 工具 . 它有一个转换为HTML布局的选项 .

What is the problem with this:

  • 表格信息未保留在HTML输出中

  • 我期待 <table> 标签,但一切都在 <p> 标签下 .

PDF文档中是否有任何标记表示表格结构?像HTML中的 <table><tr><td>

如果“是”,任何对此的指示都会有所帮助 . 如果“不”,关于这个事实的明确信息也是有帮助的 .

2 回答

  • 6

    如果PDF文档错过了将内容标记为表,行,单元格等(称为标记)的信息,则没有一致的方法从PDF文档中提取表 . 大多数情况下,PDF文档不包含这些标记 . 这些标签通常用于使PDF可访问,以便例如可以大声朗读 . PDF无需使用这些标记 .

  • 12

    但是,您可以使用 pdftotext -layout input.pdf output.txt . 它在文本文件中打印pdf并包含原始布局 . 没有标签,但有一些漂亮的脚本(perl / php /等),你可以从表中恢复数据 .

    如果您正在处理单个页面,那么您最好手动完成它,但如果您(像我一样)必须处理100页或1000页的页面,那么它就是您可以获得的最佳效果 . 我一直在寻找很长一段时间,找不到比pdftotext更好的pdf-2文本工具 .

    输出中存在一些不一致,并非所有类似的pdf表都产生类似的txt输出,但这会使您的脚本更有趣 .

相关问题