【发布时间】:2010-11-14 06:20:19
【问题描述】:
我正在使用Xpdf 从 PDF 文件中提取文本,这与 -raw 选项配合得很好,但现在我们想将 PDF 文件转换为 HTML 文件以提取 HTML 格式标签,如粗体 、斜体 等与文本。带有-html 选项的Xpdf 确实有效,我也尝试过为此使用pdf2html,但发现它不可靠,因为缺少 和 等标签。
我们现在使用 Acrobat Reader 将 PDF 文件保存为 HTML 文件,它为我们提供了所有 HTML 格式标记。
有没有办法在 Perl 中使用 Acrobat Reader 将多个 PDF 文件保存为 HTML 文件?
谢谢。
【问题讨论】:
-
您真的需要从 Perl 中执行此操作,或者任何可以控制外部应用程序的东西都可以工作吗?
-
不需要在 Perl 中,任何其他应用程序都可以。唯一的一点是它应该能够转换多个文件。
标签: html perl pdf adobe acrobat