首页 文章

如何使用Python从PDF中的特定区域提取文本?

提问于
浏览
4

我正在尝试使用Python从PDF中提取Text,并且我已经使用PyPDF2成功完成了这样的操作:

import PyPDF2
pdfFileObj = open('path', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
pageObj.extractText()

这将从页面中提取所有文本,但我只想从页面左上角的3'x4'的矩形区域中提取文本 .

我基本上想做类似的事情:How-to extract text from a pdf doc within a specific rectangular region?但在Python中

可以通过PyPDF2或任何其他Python库来完成吗?

1 回答

  • 2

    这是一个相当复杂的话题,但它是可能的 . 首先,您需要熟悉pdf格式描述 .

    例如,启动here .

    您可以识别文本框的位置和内容并提取字符串数据 .

    This主题包含pyPdf的示例,pyPdf是以前版本的PyPDF2,但语法类似 . 有关如何迭代间接对象的示例 .

    一个好的起点也是您使用的函数pageObj.extractText()的来源 .

    如果您不受Python限制:How to extract text from a PDF?

相关问题