【问题标题】:In ASP.NET what is the best way to convert a PDF file to HTML?在 ASP.NET 中,将 PDF 文件转换为 HTML 的最佳方法是什么?
【发布时间】:2010-09-21 15:08:23
【问题描述】:

我的用户要做的是在他们的机器上选择一个 PDF 文档,将其上传到我的网站,在那里我将转换为 HTML 文档以显示在网站上。该文档将在转换后存储在数据库中。

将 PDF 转换为 HTML 的最佳方法是什么?

我收到了一个要求,用户将创建一个“新闻”故事作为 pdf 格式,然后将其上传到服务器,然后将其转换为 HTML 并显示在网站上。

【问题讨论】:

  • 我能问一下你为什么要这么做吗?
  • 您的意思是您希望能够将 PDF 存储在用户上传的数据库中?
  • 我不想这样做,我的经理想知道这是否可行。
  • 这是可能的,但您谈论的是大量时间或金钱。我在下面提出了一种更好的方法,您可以提出它来替代数千美元的许可费和编码时间。
  • 这是一个足够好的答案,我可以告诉他们。他们可以决定是否真的要花钱。这闻起来像 WTF 吗?

标签: asp.net html pdf pdf-to-html


【解决方案1】:

为什么不使用iTextSharp 来阅读PDF 内容?然后您可以将二进制 PDF 和文本内容保存到数据库中。然后,您可以让用户搜索内容并下载 PDF。

【讨论】:

    【解决方案2】:

    您应该查看 DynamicPDF。他们有一个转换器(目前是 Beta 版)来服务于这个目的。我们在使用他们的产品方面取得了巨大成功(尤其是将 Reporting Services 报告直接转储为 PDF)。

    参考:http://www.dynamicpdf.com/

    【讨论】:

      【解决方案3】:

      任何可以将文档保存为 PDF 的文档创建软件都可以将它们保存为 HTML。我假设问题是您的用户将创建丰富的文档(大量嵌入的图像),这会产生多个文件,而您的要求源于希望尽可能简单地向用户上传这些文档。

      有许多转换包可能可以为您做到这一点,但是当您谈论丰富的内容时,您谈论的是文本和图像。这些图像必须存储在某个地方并以某种方式提供服务,并且无论您使用何种转换方法都将要求您检查所有图像源以确保它们指向您服务器上的有效位置。

      我想向您的团队推荐一种替代方法:实施众多博客 API 之一来发布内容。有使用这些 API 将内容直接发布到网站的免费和商业软件包,例如 Windows Live Writer 和 Microsoft Word。您的用户可以简单地创建他们的内容并将其直接上传到您的网站,而无需先将其发布为 PDF,然后再上传。因此,对于您的用户来说,这个过程变得更加顺畅,并且您以一种不需要花费数千美元开发或购买转换代码的形式获得帖子。

      两个最常见的 API 是 MetaWeblog APIMovable Type API。两者都非常简单且易于实现。我认为这种方式比您正在考虑的方式要好得多。

      【讨论】:

        【解决方案4】:

        只需要简单的谷歌搜索“PDF to HTML”:http://www.gnostice.com/pdf2manyOverview_x.asp。我确定还有其他人。

        因此,尽管“可能”,但您可能需要向您的经理解释这不是最佳的内容管理解决方案。

        【讨论】:

          【解决方案5】:

          如果可能,我的建议是不要这样做(但我们都知道经理是什么样的人)所以...

          我建议您不要将 PDF 转换为 HTML 或从 HTML 转换(因为除非您能找到商业解决方案,否则几乎不可能),而是按照已经提到的方式将其存储为编码的 Base64 字符串, 或 BLOB 或数据库中的其他二进制格式,然后使用浏览器的某种 PDF 视图插件将其显示给用户。

          【讨论】:

            【解决方案6】:

            我认为将 PDF 转换为 HTML 字符串不一定是最好的主意,尤其是当您想将其导出为 PDF 时。 PDF 文件通常包含图像等二进制元素,因此您最好通过 Base64 等编码将其转换为 ASCII。这样,您将拥有一个 ASCII 字符串,您可以将其保存到数据库中的文本字段中,然后将其转换回来。您能否进一步扩展主要要求?

            【讨论】:

              猜你喜欢
              • 2017-08-22
              • 1970-01-01
              • 2012-02-29
              • 2020-11-16
              • 1970-01-01
              • 2011-01-21
              • 1970-01-01
              • 1970-01-01
              • 1970-01-01
              相关资源
              最近更新 更多