从 PDF 文档中提取文本 - C# [重复]答案

【问题标题】：Extracting text from PDF document - C# [duplicate]从 PDF 文档中提取文本 - C# [重复]
【发布时间】：2011-01-18 19:52:12
【问题描述】：

是否有可靠的方法从 PDF 中提取文本？想到的第一个想法是 PDF 可能有多个列，提取机制需要以某种方式知道逻辑结构。我知道一些 PDF 文档被“标记”，但我需要支持几乎所有 PDF 文档。

这里有任何第三方组件来救援吗？

【问题讨论】：

【解决方案1】：

请看：Extracting text from PDFs in C#

【讨论】：

【解决方案2】：

有些 PDF 是扫描的，因此需要 OCR（至少可以说不容易）。

一些 PDF 是压缩的，而另一些（很少）是纯 PDF。

PDF 文件格式本身是有据可查的，但如果要从除了简单的单列文档之外的任何内容中提取正确的“结构”，您的要求就很高了。 PDF 在内部表示，如果每一行文本都以绝对定位方式定位在 DIV 中，HTML 的外观。

【讨论】：