由于ToUnicode映射，PDF文本提取返回错误的字符-Java 学习之路

我试图使用PDFMiner从外语PDF文件中提取文本，但是被ToUnicode语句挫败了 . 即使在普通的PDF查看器下，该文件的行为也很奇怪 .

例如，以下是文件中某些文本的屏幕截图：

correct text

但是，如果我选择并复制文本，它看起来像这样：

िनरकर

您可以看到多个字符已更改，尤其是倒数第二个字符 .

毫不奇怪，PDFMiner提取不正确的文本 . 但每个PDF查看器都能正确显示这些数据 . 我怀疑问题是ToUnicode Map ，或者是带有连接字符的东西 . 所需的字母应该是0x915,0x94D，0x937的序列 . PDFMiner仅报告0x915，它描述了不同的字符 .

我需要做些什么才能让PDFMiner正确提取文本，即在图像中而不是复制粘贴文本？

这是link to the PDF有问题 .

1 回答