我正在使用Apache PDFBox和Java来解析PDF并从中获取所有信息 . 提取文本仅适用于英语 . 对于其他语言,我只获得一些特殊字符 . 例如,提取阿拉伯字符Ô将给出字符串:“?on printing . 当我将计算机的”区域和语言“从英语更改为阿拉伯语时工作正常 . 所以我认为提取字符的Unicode将解决这个问题问题 . 请帮我从PDF获取字符的Unicode或建议我解决这个问题的一些解决方案 .
试试changing the Java system locale . 从Java程序中,这应该等同于更改操作系统设置 .
http://grepcode.com/file/repo1.maven.org/maven2/org.apache.pdfbox/pdfbox/1.6.0/org/apache/pdfbox/util/PDFText2HTML.java
私有String转义(String chars)将字符转换为unicode .
2 回答
试试changing the Java system locale . 从Java程序中,这应该等同于更改操作系统设置 .
http://grepcode.com/file/repo1.maven.org/maven2/org.apache.pdfbox/pdfbox/1.6.0/org/apache/pdfbox/util/PDFText2HTML.java
私有String转义(String chars)将字符转换为unicode .