我有一个由第三方用doPDF程序生成的PDF . 我试图从中获取文本,但是当我尝试使用Adobe Acrobat Pro或任何其他软件时 - 我只收到了完整的方形字符文件 .

当我从pdf(使用PdfFileAnalyzer)中提取Font和ToUnicode流时,我发现,它可能是ToUnicode表的一些问题 .

我在下面添加了其中一种字体的截图(它是A-Z字符集)和ToUnicode表 .

是否可以使用字体或ToUnicode表修复此问题?

谢谢!

http://i62.tinypic.com/125i48w.png

/CIDInit /ProcSet findresource begin
12 dict begin
begincmap
/CIDSystemInfo
<< /Registry (Softland) /Ordering (Identity) /Supplement 0 >> def
/CMapName /Softland def
/CMapType 2 def
1 begincodespacerange
<0000> <FFFF>
endcodespacerange
38 beginbfchar
<0001> <F033>
<0002> <F039>
<0003> <F030>
<0004> <F038>
<0005> <F031>
<0006> <F042>
<0007> <F049>
<0008> <F04F>
<0009> <F043>
<000A> <F041>
<000B> <F044>
<000C> <F020>
<000D> <F04A>
<000E> <F04E>
<000F> <F054>
<0010> <F053>
<0011> <F04B>
<0012> <F04D>
<0013> <F050>
<0014> <F059>
<0015> <F032>
<0016> <F035>
<0017> <F02E>
<0018> <F045>
<0019> <F052>
<001A> <F055>
<001B> <F047>
<001C> <F02F>
<001D> <F037>
<001E> <F02C>
<001F> <F036>
<0020> <F03D>
<0021> <F03A>
<0022> <F034>
<0023> <F028>
<0024> <F02B>
<0025> <F029>
<0026> <F02D>
endbfchar
endcmap
CMapName currentdict /CMap defineresource pop
end
end