首页 文章
  • 3 votes
     answers
     views

    由于ToUnicode映射,PDF文本提取返回错误的字符

    我试图使用PDFMiner从外语PDF文件中提取文本,但是被ToUnicode语句挫败了 . 即使在普通的PDF查看器下,该文件的行为也很奇怪 . 例如,以下是文件中某些文本的屏幕截图: 但是,如果我选择并复制文本,它看起来像这样: िनरकर 您可以看到多个字符已更改,尤其是倒数第二个字符 . 毫不奇怪,PDFMiner提取不正确的文本 . 但每个PDF查看器都能正确显示这些数据 . 我怀疑问...
  • 0 votes
     answers
     views

    pdfminer不会从填写的pdf表单中提取数据

    我正在尝试使用pdfminer以pdf格式提取已填写的内容 . 访问pdf的说明如下: 转到https://www.ffiec.gov/nicpubweb/nicweb/InstitutionProfile.aspx?parID_Rssd=1073757&parDT_END=99991231 点击 fourth report from the top 旁边的"Create...
  • 0 votes
     answers
     views

    根据标签识别PDF文本分组

    我正在从一大堆PDF文档中提取信息 . 在这些文件中,有多种格式的信息,包括正常段落和更多“结构化”数据,其中信息由空白区域传达 . 例如,有时这些报告中的“表格”将采用以下格式: Key Key Key Value Value 而有时则会是: Key 值 Key 值 Key 值 现在我正在使用PDFMiner来提取文本,但它通常只适用于一种格式(垂直或水平) . 我'm differe...
  • 1 votes
     answers
     views

    判断PDF文本是否可见

    我正在使用pdfminer库解析一些PDF文件 . 我需要知道文档是否是扫描文档,扫描机器将扫描图像放在顶部,OCR提取的文本放在后台 . 有没有办法确定文本是否可见,因为OCR机器确实将它放在页面上供选择 . 一般来说,问题在于区分两种截然不同但外观相似的情况 . 在一个案例中,有一个扫描文档的图像覆盖了大部分页面,其中包含OCR文本 behind . 这是PDF文本,图像被截断:http:/...

热门问题