首页 文章

使用Apache PDFBox解析PDF文件

提问于
浏览
1

我正在尝试使用PDFBox修改PDF文档的内容 . 我原样使用this example,但观察到我的PDF文件的文本在字符级别(或更糟)被分割 . 例如,一个字符串 EM? what it is: 被拆分为:

COSString{E}
COSString{M?}
COSString{ }
COSString{w}
COSString{hat }
COSString{it }
COSString{is}
COSString{:}

(通过在上述代码中打印 cosString 进行检查) . 据我所知,文件中只有拉丁字符,编码也是ISO-8859-1 . 有任何想法吗?

问候,

萨里尔

1 回答

  • 1

    这很可能是PDF格式问题 . 这就是您的特定PDF存储文本以获得正确的字母间距或kerning的方式 . 这在PDF到PDF之间差别很大,具体取决于它们的创建方式 .

    通常,我建议简单地将所有不同的令牌合并为一个大的内容字符串 .

相关问题