Java 学习之路

126 votes

answers

views

如何从PDF中提取文本？ [关闭]

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗？我们需要能够获得包含在文档的预先知道区域中的文本，因此API需要向我们提供页面上每个元素的位置信息 . 我们希望以 xml 或 json 格式输出数据 . 我们目前正在寻找看起来相当不错的PdfTextStream，但希望听到其他人的经验和建议 . Are there alternatives (commercial ones or f...

pdf text ghostscript extraction text-extraction
2 votes

answers

views

从动画tiff / gif打开CV ROI提取

我正在分析突触的灰度记录，我想从中自动提取感兴趣区域（ROI）作为整个动画的小“切割”集合，以便能够追踪和解释显微镜的运动并分析特定ROI的Z轴轮廓 . 这意味着我需要扫描图像，识别ROI并在“帧上”匹配它们，将结果导出为帧集 . 常见的ROI捕捉技术（过滤，通过Markov或Fourier对帧进行平均，然后匹配点）渲染过于模糊/倾斜的图像，无法用于进一步分析，并且无法处理图像中发生的运动量，以及...

python opencv animation tiff extraction
8 votes

answers

views

高效的TIFF瓦片提取C.

我正在处理大约20000 x 20000像素的1gb大tiff图像 . 我需要在随机位置从图像中提取几个图块（大约300x300像素） . 我尝试了以下解决方案： Libtiff（我能找到的唯一低级库）提供TIFFReadline（），但这意味着读取大约19700个不必要的像素 . 我实现了自己的tiff阅读器，它可以从图像中提取出一块图块，而无需读取不必要的像素 . 我预计它会更快，但对...

c++ tiff extraction tile libtiff
0 votes

answers

views

XSLT转换和CDATA

我必须使用XSLT转换输入xml . 它包含，CDATA和我需要从CDATA中提取元素然后我必须重命名标记 . 下面是我输入的xml： <getArtifactContentResponse> <return> <![CDATA[ <metadata> <overview>...

xslt rename cdata extraction
1 votes

answers

views

PdfBox从pdf中提取具有相同font-family的文本

我需要从pdf中提取一段文本 . 此文本具有与特征相同的font-family . 有任何想法吗？干杯 Edit: 让我以其他方式提问：如何从pdf页面中提取"Bold"文本？

java pdf pdfbox extraction
0 votes

answers

views

从pdf中提取段落

我正在对pdf电子书进行主题建模，需要逐段提取文本 . 为此，我使用apache pdfBox，它有效地从pdf中提取文本 . PDFParser解析器; PDFTextStripper pdfStrip = null; parsedText = pdfStrip.getText（pdDoc）; 但我无法单独提取段落 . 此工具提供了一种设置段落开始/结束标识符的方法，但我需要知道段落中断标识符 ...

pdf extraction pdfbox
12 votes

answers

views

PDF表格提取

我有（相同）数据保存为GIF图像文件和PDF文件，我想将其解析为HTML或XML . 这些数据实际上是我大学食堂的菜单 . 这意味着有一个新版本的文件必须每周解析！通常，这些文件包含一些页眉和页脚文本，以及一个充满其他数据的表 . 我已经阅读了有关stackoverflow的一些帖子，我也开始尝试将表数据解析为HTML / XML： PDF PDFBox || iText（Java） Go...

pdf pdfbox extraction

如何从PDF中提取文本？ [关闭]

从动画tiff / gif打开CV ROI提取

高效的TIFF瓦片提取C.

XSLT转换和CDATA

PdfBox从pdf中提取具有相同font-family的文本

从pdf中提取段落

PDF表格提取

热门问题