如何自动将 PDF 转换为 HTML？答案

【问题标题】：How do I automate converting PDF to HTML?如何自动将 PDF 转换为 HTML？
【发布时间】：2013-07-03 16:25:32
【问题描述】：

我为一家出版商工作，我正在尝试从我们完全布局的 PDF 中提取内容。我尝试了 pdftohtml、pdftotext、pdfminer 和其他基于 Python 的方法来获取内容，以及从原始 Acrobat 文件保存到 Word、HTML、XML 等。

我不仅需要文本，还需要文本格式。这是因为，例如，我需要文档中的所有蓝色文本。

当我从 Acrobat 保存到 HTML、Word 等时，生成的文件包含页面的屏幕截图，而不是布局的文本。当我使用不同的 Python 模块提取文本时，我得到了文本但丢失了文本格式。

我找到的唯一解决方案是将 PDF 手动复制并粘贴到 word doc 中，然后另存为 HTML。我希望能自动完成。

为什么从 Acrobat 复制到 Word 可以达到我用其他方式做不到的效果？有没有人遇到过这个问题？

【问题讨论】：

【解决方案1】：

也许您可以考虑另一种方法。该软件（https://pdfapi.codeplex.com/）可以通过MVS直接将pdf文件转换为html。如果您能够使用MVS，我认为我上面提到的软件对您将pdf文件中的文本转换为可以完美保持格式的html很有用。当然，这只是一个推荐，你可以试一试。

【讨论】：