我正在使用Xpdf从PDF文件中提取文本,该文件与 -raw
选项一起使用,但现在我们要将PDF文件转换为HTML文件,以便使用文本提取HTML格式标记,如粗体<b>,斜体<i>等 . 带有 -html
选项的Xpdf确实可以工作,我也尝试过使用pdf2html,但是没有找到像<sup>和<sub>这样的标签可靠的地方 .
我们现在使用Acrobat Reader将PDF文件保存为HTML文件,它为我们提供了所有HTML格式标记 .
有没有办法在Perl中使用Acrobat Reader将多个PDF文件保存为HTML文件?
谢谢 .
1 回答
PDF样式信息完全是任意的,并且可以使用
-xml
选项pdftohtml
然后使用LibXML将一些启发式应用于输出并提供原始文档的合理HTML近似值 .