首页 文章

有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件?

提问于
浏览
0

我正在使用Xpdf从PDF文件中提取文本,该文件与 -raw 选项一起使用,但现在我们要将PDF文件转换为HTML文件,以便使用文本提取HTML格式标记,如粗体<b>,斜体<i>等 . 带有 -html 选项的Xpdf确实可以工作,我也尝试过使用pdf2html,但是没有找到像<sup>和<sub>这样的标签可靠的地方 .

我们现在使用Acrobat Reader将PDF文件保存为HTML文件,它为我们提供了所有HTML格式标记 .

有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件?

谢谢 .

1 回答

  • 2

    PDF样式信息完全是任意的,并且可以使用 -xml 选项 pdftohtml 然后使用LibXML将一些启发式应用于输出并提供原始文档的合理HTML近似值 .

相关问题