所以我试图从PDF文件中提取英语和印地语文本 . 正确提取英文文本 . 但是当我尝试提取印地语文本时,一些字符被圆/正方形替换 . 我将印地语文本片段直接从PDF文件复制到Word文档,并为一些字符获得相同的方块 .
PDFBox版本:2.0.7
PDF版本:1.6(Acrobat 7.x)
安全细节(PDF):
字体细节:
我无法附加PDF,但这里是 snippet of the PDF File(Adobe Acrobat Reader) .
Note :我画了黑条,因为它包含某人的地址 .
Output of text extracted using PDFBox :
पता:कालकाजी,दिणिदी,िदी - 110019
从上面的PDFBox文本提取输出可以看出,一些字符被圆圈取代 . 当我手动从PDF复制到word文档时,也会发生同样的情况 .
我也尝试过tesseract OCR,但这会产生更糟糕的输出 . 我想知道我可以尝试的其他任何选项吗?
例如,使用PDFBox提取数据,而不是文本而是图像?
EDIT: :还收到以下警告 .
03:58:38.711 [main] WARN o.a.pdfbox.pdmodel.font.PDType0Font - 字体Lohit-Devanagari中没有CID 26(26)的Unicode映射