【问题标题】:Looking for advice for pdf catalog conversion to html寻求将 pdf 目录转换为 html 的建议
【发布时间】:2011-12-16 23:10:28
【问题描述】:

我有一个客户是齿轮和链条等的生产商,他们有一个 200 页的目录,其中主要包括文本、带有数字的表格和大量图表。我必须将内容(保持格式)传输到新网站,并且我已经开始一次传输 1 页数据的过程。这是我正在处理的内容类型的示例:

关于如何自动进行此类转换的任何想法?

【问题讨论】:

    标签: html pdf


    【解决方案1】:

    pdftocairo

    是一个转换实用程序,能够将 pdf 内容 按原样 转码,保持精确的布局,多种格式,其中之一是 svg

    svg可用于网页、html页面、mozilla浏览器内嵌svg查看器(Explorer需要免费插件Adobe svg查看器)

    这可能是最好的解决方案,但是我们需要查看生成的单个 svg 的大小

    要转换 svg 中的所有 pdf 页面(看起来与 pdf 页面完全相同) 您需要首先在专用目录中将您的 pdf 拆分为单页(然后移动你的源 pdf 一个目录)

    pdftk yourfile.pdf burst && move yourfile.pdf ..
    

    然后递归地使用pdftocairo

    for f in *.pdf; do pdftocairo -svg $f; done
    

    如果生成的svg不是太大,可以在网站中使用,否则需要使用

    pdftohtml

    希望布局保持不变

    【讨论】:

    • 感谢您的回复。除了在某些浏览器中需要插件之外,SVG 的问题是我们需要将文本转换为直接的 html,以便它可以搜索和索引。不过,我确实很欣赏冗长的回复,并且可能会将其标记为答案,除非有人能提供更好的选择。
    • 那么,pdftohtml 可能适合您的需求;如有必要,Windows 二进制文件和源代码可用于在其他平台上构建。如果 pdftohtml 不成功;我认为 Abbyy Finereader 能够生成忠实地保持布局的 html 输出
    【解决方案2】:

    我们在http://www.jpedal.org/html_index.php 有一个 PDF2HTML5 工具,它可能满足您的需求。

    【讨论】:

      猜你喜欢
      • 2021-12-31
      • 1970-01-01
      • 2011-09-02
      • 2010-12-31
      • 2019-09-27
      • 1970-01-01
      • 1970-01-01
      • 2016-12-01
      • 2014-07-20
      相关资源
      最近更新 更多