首页 文章
  • 2 votes
     answers
     views

    如何在Java中将PDF转换为JPEG? [关闭]

    我一直在尝试将PDF转换为Java中的图像 - 我尝试过PDFBox,但实际上转换的分辨率非常差 . 有没有其他方法可以用来将PDF转换为高质量的图像? 如果有选项可以使用PDFBox,你能给我一些示例代码吗? 我现在已经尝试了一个多星期了... 谢谢 .
  • 12 votes
     answers
     views

    PDF表格提取

    我有(相同)数据保存为GIF图像文件和PDF文件,我想将其解析为HTML或XML . 这些数据实际上是我大学食堂的菜单 . 这意味着有一个新版本的文件必须每周解析!通常,这些文件包含一些页眉和页脚文本,以及一个充满其他数据的表 . 我已经阅读了有关stackoverflow的一些帖子,我也开始尝试将表数据解析为HTML / XML: PDF PDFBox || iText(Java) Go...
  • 0 votes
     answers
     views

    使用Apache POI和Apache PDFBox阅读doc,pdf文件时错误定位的文本框

    我试图通过使用 Apache POI (对于doc,docx)和 Apache PDFBox (对于pdf)库将它们转换为单个字符串来阅读和处理Java中的.doc,.docx,.pdf文件 .它工作正常,直到遇到文本框 . 如果格式是这样的: paragraph 1 textbox 1 paragraph 2 textbox 2 paragraph 3 那么输出应该是:paragraph 1 t...
  • 0 votes
     answers
     views

    使用pdfbox以pdf格式提取表格数据

    我们可以使用pdfbox API以pdf格式提取表格数据吗?使用PDFTextStripper中的getText会删除列到数据映射之类的信息,因为每个单元格中的数据之间缺少分隔符 . 你能建议一个方法吗?
  • 0 votes
     answers
     views

    PdfBox对Pdf到Pdf的影响

    我正在使用pdfbox(1.8)来处理Windows上的PDF(7及以上版本) . 我需要输入一个输入pdf并转换为由同一页面制作的pdf,但用作图像(没有文本可选等) . 使用小文件我没有问题但是当我必须转换更大的文件时,由于大量的内存使用我不知道 . 我会发布一些代码,如果它有帮助,但我正在使用的方法很简单:创建一个文档,保存为从源pdf中获取的图像的所有页面 . 我正在寻找更多内存和时间效率...
  • 2 votes
     answers
     views

    使用PDFBox 2.0从PDF中提取文本

    我正在尝试使用PDFBox 2.0进行文本提取 . 我想获得有关特定字符的字体大小和页面上该字符的位置矩形的信息 . 我已经使用PDFTextStripper在PDFBox 1.6中实现了这个: PDFParser parser = new PDFParser(is); try{ parser.parse(); }catch(IOException e){ ...
  • 0 votes
     answers
     views

    使用pdfbox获取pdf文本的字体属性

    我正在研究PDFBox来提取pdf文件的内容 . 我能够提取文本,但我还需要获取文本的字体属性 . 那么有人可以帮我提取字体属性吗? 我也在正确提取某些字符方面遇到问题 . PDFBox给出'?'当它无法识别角色时 . 所以如果可能的话,也给我一些解决问题的建议 . 提前致谢..
  • 3 votes
     answers
     views

    如何使用java和PDFBox从PDF获取字符的Unicode

    我正在使用Apache PDFBox和Java来解析PDF并从中获取所有信息 . 提取文本仅适用于英语 . 对于其他语言,我只获得一些特殊字符 . 例如,提取阿拉伯字符Ô将给出字符串:“?on printing . 当我将计算机的”区域和语言“从英语更改为阿拉伯语时工作正常 . 所以我认为提取字符的Unicode将解决这个问题问题 . 请帮我从PDF获取字符的Unicode或建议我解决这个问题的一...
  • 2 votes
     answers
     views

    pdf通过java中的pdfbox阅读

    我在使用pdfbox阅读pdf时遇到了问题 . 我的实际pdf是部分不可读的,所以当我在编辑器中复制并粘贴不可读的部分时,它会显示小盒符号,但当我尝试通过pdfbox读取相同的文件时,这些字符不会被读取(我不指望它们待读) . 我期望的是,我至少得到一些符号或一些随机字符而不是实际字符 . 有没有办法做到这一点 . 该行已被选中,因此它不是图像 . 有没有人找到任何解决方法? 有一个pdfbox示...
  • 0 votes
     answers
     views

    提取Identity-H编码的PDF文本并在java中使用PDFBox替换它

    我正在努力阅读用Identity-H(TrueType(CID))编码的PDF文档 . 当我获得Tj的标记值时,我能够找到不可读的字符串(随机符号) . 我需要对如何解决这个问题提出任何建议,因为我需要从PDF中找到某些字符串并替换它们 . public void doIt( String inputFile, String outputFile, String strToFind, String...
  • 0 votes
     answers
     views

    如何在使用PDFBox将字符串打印为PDF之前清理字符串

    我正在从UTF-8的用户输入创建PDF文档 . 除了显示PDF之外,创建本身也会失败 java.lang.IllegalArgumentException: U+039B is not available in this font's encoding: WinAnsiEncoding . 这里的大多数答案都指向“使用具有更好UTF-8支持的字体”,但由于我无法控制用户输入,因此这种UTF-8支...
  • 1 votes
     answers
     views

    使用PDFBox以印地语提取PDF文本

    所以我试图从PDF文件中提取英语和印地语文本 . 正确提取英文文本 . 但是当我尝试提取印地语文本时,一些字符被圆/正方形替换 . 我将印地语文本片段直接从PDF文件复制到Word文档,并为一些字符获得相同的方块 . PDFBox版本:2.0.7 PDF版本:1.6(Acrobat 7.x) 安全细节(PDF): 字体细节: 我无法附加PDF,但这里是 snippet of the PDF Fi...
  • 4 votes
     answers
     views

    用PDFBOX写阿拉伯语并使用正确的字符表示形式而不分开

    我正在尝试使用PDFBox Apache生成包含阿拉伯语文本的PDF,但文本生成为单独的字符,因为Apache将给定的阿拉伯字符串解析为一系列通用的“官方”Unicode字符,这些字符相当于孤立形式的阿拉伯字符 . 这是一个例子:目标文本以PDF格式写入"Should be expected output in PDF File" - >جملةبالعربي我在PDF...
  • 9 votes
     answers
     views

    PDFBox:使用非常大的PDF .

    我正在使用一些非常大的PDF,一些超过7GB . PDF包含多达20,000页和许多整页彩色图像 . 我想使用PDFBox来处理PDF,但由于我在尝试打开PDF时出现OutOfMemoryError的大小 . 我正在使用版本pdfbox-app-1.6.0,在Windows 7上使用Intellij,java 6 . 首先,我尝试编写一个简单的程序,它只是在PDDocument中打开PDF并将每...
  • 8 votes
     answers
     views

    pdfbox将pdf转换为图像字节[]

    使用pdfbox,是否可以将PDF(或PDF字节[])转换为图像字节[]?我在网上查看了几个例子,我发现的唯一一个例子描述了如何直接将转换后的文件写入文件系统或将其转换为Java AWT对象 . 我宁愿不招致将图像文件写入文件系统的IO,读入byte [],然后删除它 . 所以我可以这样做: String destinationImageFormat = "jpg"; bool...
  • 0 votes
     answers
     views

    使用PDFBox减小PDF的大小

    我有一个应用程序,用户可以上传一些pdf文件,但一般发送的PDF文件具有大分辨率和大小的图像,这使得pdf很重,我想知道是否有一种方法来获取PDF格式获取图像压缩图像并使用新的压缩图像重新组装pdf? 提前致谢 .
  • 43 votes
     answers
     views

    Apache PDFBox将pdf转换为图像

    有人可以给我一个例子,说明如何使用Apache PDFBox在不同的图像中转换pdf(pdf的每一页一个) . 提前致谢
  • 0 votes
     answers
     views

    PDFBOX支持的PDF版本

    我一直在寻找Apache PDFBOX支持的所有PDF版本 . 我正在使用PDFBOx 0.7.3版本,实际上我能够处理1.5及更早版本的所有PDF,但我需要处理更新的版本(1.6,1.7等) . 你知道升级PDFBOX是否可以解决这个问题?还有任何升级PDFBOX的指南吗?如果可以,你能提供吗?你推荐哪个版本?
  • 1 votes
     answers
     views

    使用PDFBox将PDF转换为PDF / A.

    目前我正在尝试将PDF转换为PDF / A. 但不知怎的,我不知道我是否可以通过这样做来转换色彩空间? 这是我的代码,但是: PDDocumentInformation info = doc.getDocumentInformation(); System.out.println("Page Count=" + doc.getNumberOfPages()); System.o...
  • 0 votes
     answers
     views

    生成的pdf中的文本相反

    我正在使用pdfbox向pdf文件添加一行 . 但我补充的文字是相反的 . File file = new File(filePath); PDDocument document = PDDocument.load(file); PDPage page = document.getPage(0); PDPageContentStream contentStream = new PDPageCon...
  • 1 votes
     answers
     views

    如何翻译PDPage的x,y原点

    我是Apache的PDFBox的新手 . 我正在使用从svn存储库获取的2.0.0版 . 实际上我尝试增加PDPage对象的cropbox . 好的,没有挑战 . 但页面内容仍保留在裁剪框的左下角 . 我希望它集中在新的cropbox空间 . 我知道所有内容都绝对以PDF格式定位 . 所以我的问题是:有没有办法使用PDFBox来翻译我的PDPage的原点(x,y)或内容元素? 问候汉斯
  • 1 votes
     answers
     views

    如何从左下角到左上角更改pdf页面中文本的坐标

    我正在使用PDFBOX和itextsharp dll并处理pdf . 这样我就可以得到矩形内文本的文本坐标 . 使用itextsharp.dll提取矩形坐标 . 基本上我从itextsharp.dll获取矩形坐标,其中itextsharp使用坐标系统作为左下角 . 我从PDFBOX获取pdf页面文本,其中PDFBOX使用坐标系统作为左上角 . 我需要帮助将坐标从左下角转换为左上角 提前致谢 Upd...
  • 5 votes
     answers
     views

    如何让PDVisibleSigProperties将3页上的签名写入签名框

    我正在使用pdfbox示例签名CreateVisableSignature,我希望代码将签名的图像写入第三页上名为“ApplicantSignature”的签名字段 . 有人可以提供一个线索,说明为什么它会在第一页的左上角写下签名吗? 这是代码: public static void main(String[] args) throws KeyStoreException, NoS...
  • 0 votes
     answers
     views

    PDFBox:不一致的坐标系,我该如何绘制矩形?

    这是我为强调PDF中的文本而编写的代码 . 此方法采用PDDocument对象,页码,矩形点(x,y,w,h),颜色和透明度 . public PDDocument highlightText(PDDocument document, Integer pageNo,Float[] rectPoints, Color color, Float transparency) throws Excepti...
  • 0 votes
     answers
     views

    pdfbox 2.0.2>如何将TextPosition坐标和Graphics GeneralPath坐标组合到同一象限中

    作为pdfbox用户的新手,我计划在表中提取数据,但是应该在表的边界线的帮助下处理具有特殊格式的表,例如合并列 Headers . 因此,应提取文本的坐标和至少表格的水平边界线 . 为了从表中提取文本,我使用 PDFTextStripper 来获取 TextPosition 对象的列表;为了从同一页面中提取水平线,我使用 PDFGraphicsStreamEngine 来提取描边的 Genera...
  • 2 votes
     answers
     views

    PDFBox如何获取图像的左上角坐标?

    我正在使用以下脚本来获取页面中的图像位置 . 如何将它们传输到左上角的像素坐标?因为我想根据图像的位置和大小创建一个Rectangle,并将其与另一个Rectangle进行比较 . /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. ...
  • 1 votes
     answers
     views

    如何将页面原点翻译到PdfBox2的左上角?

    更新: 下面的问题实际上非常类似this question on SO,完全answered由mkl . 简答:要么生活在左下角,要么将坐标转换为这些 . 有一个解决方法,但这是一个烂摊子 . 原始问题: 我想在左上角创建一个坐标为0,0且右下角为210,297的PDF . 计算方法如y = 297-y似乎有点乱 . 此问题类似于this question on SO,但是指的是PdfBox 2,...
  • 15 votes
     answers
     views

    使用PDFbox确定文档中单词的坐标

    我正在使用PDFbox提取PDF文档中单词/字符串的坐标,并且到目前为止已成功确定单个字符的位置 . 这是迄今为止的代码,来自PDFbox doc: package printtextlocations; import java.io.*; import org.apache.pdfbox.exceptions.InvalidPasswordException; import org.apac...
  • 42 votes
     answers
     views

    PDF查明文本是否带下划线或表格单元格

    我一直在玩PdfBox和PDFTextStripperByArea方法 . 如果文本是 bold 或斜体,我能够提取信息,但我无法获得下划线信息 . 据我所知,在PDF中,下划线是通过绘制线条完成的 . 所以从理论上讲,我应该能够在文本的某处获得某些关于线条的信息 . 根据这些信息,我可以找出是否有下划线或表格 . 到目前为止,这是我的代码: List<TextPosition> te...
  • 0 votes
     answers
     views

    PDFBOX,逐行阅读pdf并提取文本属性

    我正在使用pdfbox从pdf文件中提取文本 . 我阅读pdf文件如下 PDFParser parser = null; String text = ""; PDFTextStripper stripper = null; PDDocument pdoc = null; COSDocument cdoc = null; File file...

热门问题