【问题标题】:Extracting text from PDF document - C# [duplicate]从 PDF 文档中提取文本 - C# [重复]
【发布时间】:2011-01-18 19:52:12
【问题描述】:

是否有可靠的方法从 PDF 中提取文本?想到的第一个想法是 PDF 可能有多个列,提取机制需要以某种方式知道逻辑结构。我知道一些 PDF 文档被“标记”,但我需要支持几乎所有 PDF 文档。

这里有任何第三方组件来救援吗?

【问题讨论】:

    标签: .net asp.net pdf


    【解决方案1】:

    【讨论】:

    • 通过引用另一个关于 SO 的问题而不是标记来回答...
    【解决方案2】:

    有些 PDF 是扫描的,因此需要 OCR(至少可以说不容易)。

    一些 PDF 是压缩的,而另一些(很少)是纯 PDF。

    PDF 文件格式本身是有据可查的,但如果要从除了简单的单列文档之外的任何内容中提取正确的“结构”,您的要求就很高了。 PDF 在内部表示,如果每一行文本都以绝对定位方式定位在 DIV 中,HTML 的外观。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-06-29
      • 2011-10-23
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多