从PDF中提取表格数据，格式为图片[关闭]

提问于 2024-04-26T06:10:25+08:00

浏览次

2

我正在尝试从document的第52页开始的表中提取数据（FAA的报告） .

问题是表格包含在图片中 . 我有机会在不手动操作的情况下获得如何做到这一点的一些指示吗？

我尝试使用Adobe的OCR功能将其转换为文本，我也尝试在R的tabulized包中使用extract_tables函数 .

我当然可以手动执行此操作，但最好知道是否有更有效的方法 .

1 回答

0
这是可能的，但其准确性取决于图像 . 我总是使用灰度图像 . Here可用工具的一个示例 . 在您的情况下，我建议您对表格进行一些截图，并使用OCRFeeder比较GOCR和Tesseract的结果 .
```
sudo apt-get install gocr tesseract-ocr ocrfeeder

ocrfeeder -i image.jpg
```
经过一些手动检查后，您可以在LibreOffice Calc中导入此文件，将其保存为“csv”，然后在R中导入 .
回复于 2024-04-26T06:10:25+08:00

相关问题