首页 文章

Java - PDFBox - 文本提取

提问于
浏览
5

我一直在使用pdfbox从PDF中提取文本信息 . 我成功地解析了文本的所有属性,如fontname,fontface,size,position等 .

PROBLEM: 我正在使用pdfbox1.2.1(最新版本) . TextPosition类中的getCharacter()返回除最后一个字符之外的完整字符串 . 最后一个字符被解析为单独的字符串 .

例如:“你好吗”被解析为“如何哟”和“你”(2个单独的字符串) .

我不希望它发生那种方式..

有没有人来过这个? ..我做错了什么??等待回复..

谢谢和问候,Magggi

2 回答

  • 1

    这个问题解决了 .

    processEncodedText( byte[] string ) 中的以下代码 PDFStreamEngine.java

    if( spacingText == 0 && (i + codeLength) < (string.length - 1) )
    {
        continue;
    }
    

    应该改为

    if( spacingText == 0 && (i + codeLength) < (string.length) )
    {
        continue;
    }
    

    此致,Maggi

  • 3

    是 . 此问题由pdfbox解决 .
    尝试最新版本的pdfbox . 最新版本可以从http://pdfbox.apache.org/download.html下载

相关问题