PDF：如何覆盖/修复扫描图像OCR文件中的可搜索文本？-Java 学习之路

我正在尝试在PDF文件上创建一个索引，我将其作为旧原始手稿中的图像进行扫描，然后在Adobe Acrobat Pro中进行字符识别 . 问题是有些词语间隔很滑，所以OCR最终会出现漏洞 . 我使用 find and fix suspects tool 但仍然存在问题 .

举个例子......

文字“ FOR EXAMPLE " was spaced funny in the original document (and its image of course) so that Adobe reads it as three words " FOR EX AMPLE " which then results in an index entry for the word " ample”看起来完全有效，如果我不知道更好 . 这是我到目前为止所识别的文档中的几个类似问题之一（还有更多要校对的页面） .

如何修复底层OCR文本，使其在创建的索引和搜索文档时都包含正确的信息 .

PS：我不能只是切换到文档的纯OCR文本版本，因为稿件是技术性的，并且有大量与文本相关的图纸 . 我需要保留图像并更改下面的“隐藏”可搜索文本 .

1 回答

0

我找到this answer暗示ABBYY FineReader 14（商业;我不隶属） . 看起来它会处理编辑，之后我假设你现有的工作流程会处理索引 . Here是另一个答案，提供了更多的工作流程细节（尽管三年前） .

另外，this question的答案暗示着Perl的CAM::PDF和pdftk .

回复于 2024-04-24T09:10:01+08:00

PDF：如何覆盖/修复扫描图像OCR文件中的可搜索文本？

1 回答

相关问题