Java 学习之路

23 votes

answers

views

从PDF文件集合中提取表格内容[关闭]

我有一堆PDF - 可能有数百或数千 . 它们的格式不一样，但是它们中的任何一个都可能有一个或多个表，其中包含我想要收集到单独数据库中的有趣信息 . 当然，我知道我必须写一些东西来做这件事 . Perl是我的选择 - 或者也许是Java . 我不关心什么语言，只要它是免费的（或者在免费试用期间便宜以确保它适合我的目的） . 我正在看CAM :: Parse（使用草莓Perl），但我不确定如何使...

parsing pdf extract pdf-parsing
1 votes

answers

views

Apache TIKA中的PDF解析

我是Apache Tika的新手，并试图弄清楚如何使用它 . 我通过互联网阅读了一些博客，并试图解析PDF文件 . 我的Scala代码是： import java.io.{File,FileInputStream} import org.apache.tika.Tika import org.apache.tika.parser._ import org.apache.tika.metadata...

scala parsing apache-tika pdf-parsing
2 votes

answers

views

根据 iText 中的大小或颜色从 PDF 中提取文本

我有一些类似布局的 PDF 文件。例如，它们的引入部分具有相同的字体颜色和大小。我想使用这个文本属性信息从这些 PDF 文件中提取介绍部分，但我找不到任何方法。例如，我将提供类似#333333 的参数，并且它仅以#333333 颜色从 PDF 返回文本。可能吗？我使用 iText 库。谢谢..

java pdf itext pdf-parsing
0 votes

answers

views

从没有XFA格式的PDF文档中读取数据

我使用iText读取包含XFA表单的PDF文档 . 我将其转换为XML，从XML读取数据并将其插入数据库 . 但是，如果我在PDF中没有XFA表格，那么我如何才能有效地从PDF中读取数据呢？

pdf itext pdf-parsing
0 votes

answers

views

Python：用图像解析pdf [关闭]

我想解析一些包含文本的pdf文件，可能包含也可能不包含图像 . 我想将文本部分提取为字符串以进行进一步处理，并将图像保存为jpeg / png或任何其他图像格式 . 什么应该是最好的模块？

python pdf-parsing

从PDF文件集合中提取表格内容[关闭]

Apache TIKA中的PDF解析

根据 iText 中的大小或颜色从 PDF 中提取文本

从没有XFA格式的PDF文档中读取数据

Python：用图像解析pdf [关闭]

热门问题