使用PDFBox以印地语提取PDF文本-Java 学习之路

所以我试图从PDF文件中提取英语和印地语文本 . 正确提取英文文本 . 但是当我尝试提取印地语文本时，一些字符被圆/正方形替换 . 我将印地语文本片段直接从PDF文件复制到Word文档，并为一些字符获得相同的方块 .

PDFBox版本：2.0.7

PDF版本：1.6（Acrobat 7.x）

安全细节（PDF）：
enter image description here

字体细节：

enter image description here

我无法附加PDF，但这里是 snippet of the PDF File(Adobe Acrobat Reader) .

PDF File Snippet

Note ：我画了黑条，因为它包含某人的地址 .

Output of text extracted using PDFBox ：

पता：कालकाजी，दिणिदी，िदी - 110019

从上面的PDFBox文本提取输出可以看出，一些字符被圆圈取代 . 当我手动从PDF复制到word文档时，也会发生同样的情况 .

我也尝试过tesseract OCR，但这会产生更糟糕的输出 . 我想知道我可以尝试的其他任何选项吗？

例如，使用PDFBox提取数据，而不是文本而是图像？

EDIT: ：还收到以下警告 .

03：58：38.711 [main] WARN o.a.pdfbox.pdmodel.font.PDType0Font - 字体Lohit-Devanagari中没有CID 26（26）的Unicode映射

使用PDFBox以印地语提取PDF文本