首页 文章
  • 0 votes
     answers
     views

    如何在使用PDFBox提取后将标记放在粗体和斜体文本周围?

    我正在尝试从词典中获取数据(这个:http://vk.com/doc8069473_312422685?hash=78fd2d459ed8547b29&dl=86147ab2323652f43d) . 我使用 PDFBox 从这个pdf文件中提取文本 . 为了做到这一点,我创建了一个类“文章”来存储每个单词,它的类型(adj,名词等等),它的所有定义及其所有例子 . 我使用正则表达式来查找...
  • 3 votes
     answers
     views

    从pdf中提取数据

    请不要标记为重复 . 我已经通过许多Stackoverflow链接,但他们没有解决我的问题 . What I'm trying to do : 我必须从大约1,50,000个pdf文件中提取数据 . A sample pdf : 所有这些pdf结构相同,包含表格格式的数据(无图像) . pdf的快照看起来像这样 . What I've done : 我使用 pdf2htmlEX termin...
  • 0 votes
     answers
     views

    从非结构化字符串中提取键值对的最佳方法?

    避免特定模式的大多数硬编码规则 . 我目前正在开发与AWS Textract类似的项目,link here . 我试图弄清楚如何从这一堆信息中获取现有的Key-Value Pairs,并以最佳方式解决问题 . 例如,我们有这样的文字: 在本文档中,我们将找到不同的键和值,如id:1和那个国家:法国没有特定的标点符号,可能还在谈论我的 Health 状况有多好...... 提取将是这样的: id...
  • 0 votes
     answers
     views

    提取Identity-H编码的PDF文本并在java中使用PDFBox替换它

    我正在努力阅读用Identity-H(TrueType(CID))编码的PDF文档 . 当我获得Tj的标记值时,我能够找到不可读的字符串(随机符号) . 我需要对如何解决这个问题提出任何建议,因为我需要从PDF中找到某些字符串并替换它们 . public void doIt( String inputFile, String outputFile, String strToFind, String...
  • 1 votes
     answers
     views

    使用PDFBox以印地语提取PDF文本

    所以我试图从PDF文件中提取英语和印地语文本 . 正确提取英文文本 . 但是当我尝试提取印地语文本时,一些字符被圆/正方形替换 . 我将印地语文本片段直接从PDF文件复制到Word文档,并为一些字符获得相同的方块 . PDFBox版本:2.0.7 PDF版本:1.6(Acrobat 7.x) 安全细节(PDF): 字体细节: 我无法附加PDF,但这里是 snippet of the PDF Fi...
  • 126 votes
     answers
     views

    如何从PDF中提取文本? [关闭]

    任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息 . 我们希望以 xml 或 json 格式输出数据 . 我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议 . Are there alternatives (commercial ones or f...
  • 0 votes
     answers
     views

    在PDF提取时忽略表格

    我试图在Java中创建一个文本处理应用程序,它需要文本作为输入 . 现在我从用户指定的PDF文件中提取此输入 . 我正在使用PdfBox进行文本提取 . 我遇到的问题是PDF文件可能包含表格,方程式和特殊符号,因此PdfBox提取的文本在许多地方都包含垃圾 . 由于这个原因,我的文本处理应用程序无法提供最佳结果 . 我想知道PDF是否具有表的特定格式,以便我可以到达根级别并在提取时将其排除 . 此...
  • 2 votes
     answers
     views

    使用PDFBox 2.0.2从PDF中提取文本缺少类PDFTextStripper()

    我在java中使用PDFBox 1.8.10实现了简单的文本提取方法 . 由于某些原因我必须将库升级到PDFBox 2.0.2 . 可能删除PDFTextStripper()方法或在新版本中找到另一个包 . 有没有办法解决这个问题?或者你能建议另一种从PDF获取文本的方法吗? 这是我的代码: public String extractTextFromPdf() { File jInput...
  • 0 votes
     answers
     views

    Python textract ImportError

    我已经开始使用Python库 textract 来解析PowerPoint(.pptx),Word文档(.docx)和文本文件(* .txt)中的文本 . 我写了一个简单的脚本来测试它 . # Python textract test script import textract textract.process("H:\My Documents\Test.docx") 当我...
  • 0 votes
     answers
     views

    使用PDFsharp和MigraDoc写入然后从PDF中读取

    我正在尝试为我们的PDF生成例程编写验证码,而我很难通过PDFsharp从使用MigraDoc创建的文件中提取文本 . ExtractText代码适用于其他PDF,但不适用于我使用MigraDoc生成的PDF(请参阅下面的代码 . ) 关于我做错的任何提示? //Create the Doc var doc = new MigraDoc.DocumentObjectModel.Document(...
  • -1 votes
     answers
     views

    MS Office属性的提取[关闭]

    我想使用C#提取MS Office文件的内容 . 例如:我想打开doc / docx / xls / xlsx / ppt / pptx并能够提取文本和信息(页数 - 单词,页数 - excel,幻灯片数量 - ppt,数量图表 - excel,图像数量 - powerpoint等等) . 我意识到我可以使用Windows iFilter提取文本 . 但这只给我文字 . 有谁知道一个dll...
  • 46 votes
     answers
     views

    如何从.doc和.docx文件中提取纯文本? (unix)[关闭]

    任何人都知道他们可以推荐什么,以便从.doc或.docx中提取纯文本? 我发现这个Best way to extract text from a Word doc without using COM/automation? - 想知道是否还有其他建议? 速度并不重要,我们甚至可以使用具有一些API的网站上传和提取文件,但我一直无法找到 . 谢谢
  • -1 votes
     answers
     views

    从pdf文件中提取特定数据

    有人可以提供一些解决方案,想法或只是一个关于如何从pdf文件中提取某些特定数据的指示,我使用pdfbox和PDfTextStripper来提取pdf文件中的所有文本,它正常工作我可以提取所有文本,单词通过单词和逐行但我无法提取一些单词(特定字符串:例如价格,年龄)我想要提取一些我想从pdf文件中提取的所需数据 .
  • 350 votes
     answers
     views
  • 1 votes
     answers
     views

    如何从双线pdf中提取文本

    我有一些pdf文件,每页有两列 . 我想通过程序从这些文件中提取文本 . pdf文件的内容是中文 . 我试图使用python3和ghostscript的pdfminer3k库,其结果都不是很好 . 最后,我使用名为 textract 的github开源项目,链接为deanmalmgren/textract . 但 textract 无法检测到包含两列的每个页面 . 我使用以下命令: import...
  • 3 votes
     answers
     views

    从PDF中的嵌套表中提取数据

    我有一些从word或excel文件创建的pdf文件 . 我需要获取表格中的信息 . 文档中的文本不是图像,因此我可以使用pdfbox等工具提取文本 . 当我有文本时,我无法知道它所属的表格中的哪些单元格,因为我不知道表格边框的位置 . 我尝试了一些桌面工具,如abby或固体pdf转换器,他们能够将文件转换成漂亮的word文档,但这不符合我的需要,因为我希望能够在C#中以编程方式...
  • 301 votes
     answers
     views

    如何使用正则表达式提取子字符串

    我有一个字符串,其中有两个单引号,即 ' 字符 . 在单引号之间是我想要的数据 . 如何编写正则表达式以从以下文本中提取“我想要的数据”? mydata = "some string with 'the data i want' inside";

热门问题