使用Apache PDFBox解析PDF文件-Java 学习之路

我正在尝试使用PDFBox修改PDF文档的内容 . 我原样使用this example，但观察到我的PDF文件的文本在字符级别（或更糟）被分割 . 例如，一个字符串 EM? what it is: 被拆分为：

COSString{E}
COSString{M?}
COSString{ }
COSString{w}
COSString{hat }
COSString{it }
COSString{is}
COSString{:}

（通过在上述代码中打印 cosString 进行检查） . 据我所知，文件中只有拉丁字符，编码也是ISO-8859-1 . 有任何想法吗？

问候，

萨里尔

1 回答