Java 学习之路

3 votes

answers

views

由于ToUnicode映射，PDF文本提取返回错误的字符

我试图使用PDFMiner从外语PDF文件中提取文本，但是被ToUnicode语句挫败了 . 即使在普通的PDF查看器下，该文件的行为也很奇怪 . 例如，以下是文件中某些文本的屏幕截图：但是，如果我选择并复制文本，它看起来像这样： िनरकर 您可以看到多个字符已更改，尤其是倒数第二个字符 . 毫不奇怪，PDFMiner提取不正确的文本 . 但每个PDF查看器都能正确显示这些数据 . 我怀疑问...

pdf pdfminer
0 votes

answers

views

pdfminer不会从填写的pdf表单中提取数据

我正在尝试使用pdfminer以pdf格式提取已填写的内容 . 访问pdf的说明如下：转到https://www.ffiec.gov/nicpubweb/nicweb/InstitutionProfile.aspx?parID_Rssd=1073757&parDT_END=99991231 点击 fourth report from the top 旁边的"Create...

python python-2.7 pdf web-scraping pdfminer
0 votes

answers

views

根据标签识别PDF文本分组

我正在从一大堆PDF文档中提取信息 . 在这些文件中，有多种格式的信息，包括正常段落和更多“结构化”数据，其中信息由空白区域传达 . 例如，有时这些报告中的“表格”将采用以下格式： Key Key Key Value Value 而有时则会是： Key 值 Key 值 Key 值现在我正在使用PDFMiner来提取文本，但它通常只适用于一种格式（垂直或水平） . 我'm differe...

pdf ocr pdfminer
1 votes

answers

views

判断PDF文本是否可见

我正在使用pdfminer库解析一些PDF文件 . 我需要知道文档是否是扫描文档，扫描机器将扫描图像放在顶部，OCR提取的文本放在后台 . 有没有办法确定文本是否可见，因为OCR机器确实将它放在页面上供选择 . 一般来说，问题在于区分两种截然不同但外观相似的情况 . 在一个案例中，有一个扫描文档的图像覆盖了大部分页面，其中包含OCR文本 behind . 这是PDF文本，图像被截断：http:/...

python pdf pdfminer

由于ToUnicode映射，PDF文本提取返回错误的字符

pdfminer不会从填写的pdf表单中提取数据

根据标签识别PDF文本分组

判断PDF文本是否可见

热门问题