首页 文章

从PDF中提取表格数据,格式为图片[关闭]

提问于
浏览
2

我正在尝试从document的第52页开始的表中提取数据(FAA的报告) .

问题是表格包含在图片中 . 我有机会在不手动操作的情况下获得如何做到这一点的一些指示吗?

我尝试使用Adobe的OCR功能将其转换为文本,我也尝试在R的tabulized包中使用extract_tables函数 .

我当然可以手动执行此操作,但最好知道是否有更有效的方法 .

1 回答

  • 0

    这是可能的,但其准确性取决于图像 . 我总是使用灰度图像 . Here可用工具的一个示例 . 在您的情况下,我建议您对表格进行一些截图,并使用OCRFeeder比较GOCR和Tesseract的结果 .

    sudo apt-get install gocr tesseract-ocr ocrfeeder
    
    ocrfeeder -i image.jpg
    

    经过一些手动检查后,您可以在LibreOffice Calc中导入此文件,将其保存为“csv”,然后在R中导入 .

相关问题