首页 文章
  • 23 votes
     answers
     views

    从PDF文件集合中提取表格内容[关闭]

    我有一堆PDF - 可能有数百或数千 . 它们的格式不一样,但是它们中的任何一个都可能有一个或多个表,其中包含我想要收集到单独数据库中的有趣信息 . 当然,我知道我必须写一些东西来做这件事 . Perl是我的选择 - 或者也许是Java . 我不关心什么语言,只要它是免费的(或者在免费试用期间便宜以确保它适合我的目的) . 我正在看CAM :: Parse(使用草莓Perl),但我不确定如何使...
  • 1 votes
     answers
     views

    Apache TIKA中的PDF解析

    我是Apache Tika的新手,并试图弄清楚如何使用它 . 我通过互联网阅读了一些博客,并试图解析PDF文件 . 我的Scala代码是: import java.io.{File,FileInputStream} import org.apache.tika.Tika import org.apache.tika.parser._ import org.apache.tika.metadata...
  • 2 votes
     answers
     views

    根据 iText 中的大小或颜色从 PDF 中提取文本

    我有一些类似布局的 PDF 文件。 例如,它们的引入部分具有相同的字体颜色和大小。 我想使用这个文本属性信息从这些 PDF 文件中提取介绍部分,但我找不到任何方法。 例如,我将提供类似#333333 的参数,并且它仅以#333333 颜色从 PDF 返回文本。可能吗? 我使用 iText 库。 谢谢..
  • 0 votes
     answers
     views

    从没有XFA格式的PDF文档中读取数据

    我使用iText读取包含XFA表单的PDF文档 . 我将其转换为XML,从XML读取数据并将其插入数据库 . 但是,如果我在PDF中没有XFA表格,那么我如何才能有效地从PDF中读取数据呢?
  • 0 votes
     answers
     views

    Python:用图像解析pdf [关闭]

    我想解析一些包含文本的pdf文件,可能包含也可能不包含图像 . 我想将文本部分提取为字符串以进行进一步处理,并将图像保存为jpeg / png或任何其他图像格式 . 什么应该是最好的模块?

热门问题