有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件？-Java 学习之路

我正在使用Xpdf从PDF文件中提取文本，该文件与 -raw 选项一起使用，但现在我们要将PDF文件转换为HTML文件，以便使用文本提取HTML格式标记，如粗体<b>，斜体<i>等 . 带有 -html 选项的Xpdf确实可以工作，我也尝试过使用pdf2html，但是没有找到像<sup>和<sub>这样的标签可靠的地方 .

我们现在使用Acrobat Reader将PDF文件保存为HTML文件，它为我们提供了所有HTML格式标记 .

有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件？

谢谢 .

1 回答

2

PDF样式信息完全是任意的，并且可以使用 -xml 选项 pdftohtml 然后使用LibXML将一些启发式应用于输出并提供原始文档的合理HTML近似值 .

回复于 2024-04-23T18:58:53+08:00

有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件？

1 回答

相关问题