【问题标题】:Is there a way to use Acrobat Reader in Perl to save multiple PDF files as HTML files?有没有办法在 Perl 中使用 Acrobat Reader 将多个 PDF 文件保存为 HTML 文件?
【发布时间】:2010-11-14 06:20:19
【问题描述】:

我正在使用Xpdf 从 PDF 文件中提取文本,这与 -raw 选项配合得很好,但现在我们想将 PDF 文件转换为 HTML 文件以提取 HTML 格式标签,如粗体 、斜体 等与文本。带有-html 选项的Xpdf 确实有效,我也尝试过为此使用pdf2html,但发现它不可靠,因为缺少 等标签。

我们现在使用 Acrobat Reader 将 PDF 文件保存为 HTML 文件,它为我们提供了所有 HTML 格式标记。

有没有办法在 Perl 中使用 Acrobat Reader 将多个 PDF 文件保存为 HTML 文件?

谢谢。

【问题讨论】:

  • 您真的需要从 Perl 中执行此操作,或者任何可以控制外部应用程序的东西都可以工作吗?
  • 不需要在 Perl 中,任何其他应用程序都可以。唯一的一点是它应该能够转换多个文件。

标签: html perl pdf adobe acrobat


【解决方案1】:

PDF 样式信息是完全任意的,不能以任何有意义的方式可靠地映射到 HTML。我有一些运气的一种策略是使用-xml 选项到pdftohtml,然后使用LibXML 对输出应用一些启发式方法,并得出原始文档的合理HTML 近似值。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2010-10-01
    • 2021-09-10
    • 2015-07-15
    • 2023-02-25
    • 1970-01-01
    • 2015-02-07
    • 2011-09-05
    相关资源
    最近更新 更多