【问题标题】:Converting from PDF to HTML [closed]从 PDF 转换为 HTML [关闭]
【发布时间】:2022-03-07 21:05:07
【问题描述】:

有没有我可以使用的 .dll 文件,它使用 PDF 文件作为输入,HTML 文件作为输出? 我想从 PDF 转换为 HTML。我的同事说,一步一步地从 PDF 中获取文本/字体/图像/边距/链接等,然后创建具有相同内容的新 HTML 文件非常困难。他说这几乎是不可能的。所以我在想 - 如果有一些 dll 可以用作参考吗?

【问题讨论】:

  • 这肯定很复杂,但你为什么要它?
  • 供应商提供了几种 html 到 pdf 转换器工具,但我没有看到任何 pdf 到 html。由于我不知道完整版可以导出为 html,因此您应该先检查一下并查看结果。那么也许你可以实现一些使用 acrobat 来完成的批处理作业。只是一个想法......
  • 网络搜索“将 pdf 转换为 html”将收集许多可能的解决方案。 SO 不是产品建议的好地方,因此投票以“不具建设性”的方式结束。
  • 将pdf内容复制到word中,然后另存为html。
  • 这些近乎狂热的人将摧毁所以......我会理解这个问题作为重复而被关闭,因为它已被问过几次,但没有建设性?真的??? SO中有成千上万个这样的问题(甚至更糟)被认为是有效的。您现在要关闭所有对解决问题 X 的库的请求吗?

标签: c# html pdf dll


【解决方案1】:

编写一个程序来做到这一点绝对不是微不足道的。如果您没有找到任何 .NET 库来执行此操作(我不能,至少不是免费的),我只需 download this 并以编程方式调用它来获取我的 html。

如果您有时间和/或 PDFToHtml 没有为您生成可接受的输出,您可以use iText 自己编写程序。这是一个非常成熟的免费pdf库。我过去曾用它来操作 PDF(合并、创建等)。

更新

正如 Quandary 的评论中所指出的,与 iText 提供的商业或 AGPL 许可证相比,PDFSharp 库提供了更宽松的许可证 (MIT)。选择图书馆时请记住这一点。我自己没有使用过 PDFSharp 库,我不知道它们在功能方面的比较。

【讨论】:

  • 如果有人这样做,最好使用 pdfsharp,它有更好的许可证。
  • 在 PDFSharp 常见问题解答中,他们声明他们的库不会将 PDF 转换为 HTML,并且他们没有计划支持它。 pdfsharp.net/wiki/…
【解决方案2】:

您可以下载这个免费工具:PDFToHTML

然后在您的程序中创建一个新进程并运行传递 PDF 文件的可执行文件。我现在刚刚测试了它,它似乎可以正常工作。

【讨论】:

    【解决方案3】:

    如果您不介意付费,Aspose 提供了一个非常好的解决方案,这是我们在我公司使用的。

    http://www.aspose.com/categories/.net-components/aspose.pdf-for-.net/key-features.aspx

    【讨论】:

    • 我们也是。另外,最近产品Spire出现了,提供了与Aspose类似的工具。
    • aspose 不像广告那么容易工作,而且生成的 html 真的很糟糕,另外,如果您需要在内存中转换而不是文件,则需要先转换为 doc,然后再将 doc 转换为 html
    猜你喜欢
    • 2010-10-31
    • 2010-09-26
    • 1970-01-01
    • 1970-01-01
    • 2010-10-12
    • 2011-02-23
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多