有没有办法在 Perl 中使用 Acrobat Reader 将多个 PDF 文件保存为 HTML 文件？答案

【问题标题】：Is there a way to use Acrobat Reader in Perl to save multiple PDF files as HTML files?有没有办法在 Perl 中使用 Acrobat Reader 将多个 PDF 文件保存为 HTML 文件？
【发布时间】：2010-11-14 06:20:19
【问题描述】：

我正在使用Xpdf 从 PDF 文件中提取文本，这与 -raw 选项配合得很好，但现在我们想将 PDF 文件转换为 HTML 文件以提取 HTML 格式标签，如粗体 、斜体等与文本。带有-html 选项的Xpdf 确实有效，我也尝试过为此使用pdf2html，但发现它不可靠，因为缺少^{和_等标签。}

我们现在使用 Acrobat Reader 将 PDF 文件保存为 HTML 文件，它为我们提供了所有 HTML 格式标记。

有没有办法在 Perl 中使用 Acrobat Reader 将多个 PDF 文件保存为 HTML 文件？

谢谢。

【问题讨论】：

您真的需要从 Perl 中执行此操作，或者任何可以控制外部应用程序的东西都可以工作吗？
不需要在 Perl 中，任何其他应用程序都可以。唯一的一点是它应该能够转换多个文件。

标签： html perl pdf adobe acrobat

【解决方案1】：

PDF 样式信息是完全任意的，不能以任何有意义的方式可靠地映射到 HTML。我有一些运气的一种策略是使用-xml 选项到pdftohtml，然后使用LibXML 对输出应用一些启发式方法，并得出原始文档的合理HTML 近似值。

【讨论】：