如何使用Python从PDF中的特定区域提取文本？

提问于 2024-04-28T16:47:49+08:00

浏览次

4

我正在尝试使用Python从PDF中提取Text，并且我已经使用PyPDF2成功完成了这样的操作：

import PyPDF2
pdfFileObj = open('path', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
pageObj.extractText()

这将从页面中提取所有文本，但我只想从页面左上角的3'x4'的矩形区域中提取文本 .

我基本上想做类似的事情：How-to extract text from a pdf doc within a specific rectangular region?但在Python中

可以通过PyPDF2或任何其他Python库来完成吗？

1 回答

2

这是一个相当复杂的话题，但它是可能的 . 首先，您需要熟悉pdf格式描述 .

例如，启动here .

您可以识别文本框的位置和内容并提取字符串数据 .

This主题包含pyPdf的示例，pyPdf是以前版本的PyPDF2，但语法类似 . 有关如何迭代间接对象的示例 .

一个好的起点也是您使用的函数pageObj.extractText()的来源 .

如果您不受Python限制：How to extract text from a PDF?

回复于 2024-04-28T16:47:49+08:00

相关问题