首页 文章
  • 126 votes
     answers
     views

    如何从PDF中提取文本? [关闭]

    任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息 . 我们希望以 xml 或 json 格式输出数据 . 我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议 . Are there alternatives (commercial ones or f...
  • 2 votes
     answers
     views

    从动画tiff / gif打开CV ROI提取

    我正在分析突触的灰度记录,我想从中自动提取感兴趣区域(ROI)作为整个动画的小“切割”集合,以便能够追踪和解释显微镜的运动并分析特定ROI的Z轴轮廓 . 这意味着我需要扫描图像,识别ROI并在“帧上”匹配它们,将结果导出为帧集 . 常见的ROI捕捉技术(过滤,通过Markov或Fourier对帧进行平均,然后匹配点)渲染过于模糊/倾斜的图像,无法用于进一步分析,并且无法处理图像中发生的运动量,以及...
  • 8 votes
     answers
     views

    高效的TIFF瓦片提取C.

    我正在处理大约20000 x 20000像素的1gb大tiff图像 . 我需要在随机位置从图像中提取几个图块(大约300x300像素) . 我尝试了以下解决方案: Libtiff(我能找到的唯一低级库)提供TIFFReadline(),但这意味着读取大约19700个不必要的像素 . 我实现了自己的tiff阅读器,它可以从图像中提取出一块图块,而无需读取不必要的像素 . 我预计它会更快,但对...
  • 0 votes
     answers
     views

    XSLT转换和CDATA

    我必须使用XSLT转换输入xml . 它包含,CDATA和我需要从CDATA中提取元素然后我必须重命名标记 . 下面是我输入的xml: <getArtifactContentResponse> <return> <![CDATA[ <metadata> <overview>...
  • 1 votes
     answers
     views

    PdfBox从pdf中提取具有相同font-family的文本

    我需要从pdf中提取一段文本 . 此文本具有与特征相同的font-family . 有任何想法吗?干杯 Edit: 让我以其他方式提问:如何从pdf页面中提取"Bold"文本?
  • 0 votes
     answers
     views

    从pdf中提取段落

    我正在对pdf电子书进行主题建模,需要逐段提取文本 . 为此,我使用apache pdfBox,它有效地从pdf中提取文本 . PDFParser解析器; PDFTextStripper pdfStrip = null; parsedText = pdfStrip.getText(pdDoc); 但我无法单独提取段落 . 此工具提供了一种设置段落开始/结束标识符的方法,但我需要知道段落中断标识符 ...
  • 12 votes
     answers
     views

    PDF表格提取

    我有(相同)数据保存为GIF图像文件和PDF文件,我想将其解析为HTML或XML . 这些数据实际上是我大学食堂的菜单 . 这意味着有一个新版本的文件必须每周解析!通常,这些文件包含一些页眉和页脚文本,以及一个充满其他数据的表 . 我已经阅读了有关stackoverflow的一些帖子,我也开始尝试将表数据解析为HTML / XML: PDF PDFBox || iText(Java) Go...

热门问题