【问题标题】:extract data from scanned documents c#从扫描的文档中提取数据c#
【发布时间】:2015-03-19 19:24:42
【问题描述】:

我有一个 PDF 文件,其中包含我们需要导入数据库的数据。 该文件是打印文本的 pdf 扫描文件。 数据的结构是这样的

N° Facture : 45526203   
Date : 01/12/2014
Nom de la société : company

但是这些数据并不总是出现在文档的相同区域。所以我想要一个可以识别这个文件的工具或 API。任何建议表示赞赏。

【问题讨论】:

  • 读完每一行后,你可以用Regex.Match(yourLine,RegexString).Value提取数字、日期或任何你想要的类型
  • 你可以去leadtools.com/sdk/ocr看看。它允许您从图像中提取文本并以不同的格式输出。然后你只需要解析结果来找到你需要的信息

标签: c# pdf ocr text-extraction


【解决方案1】:

ABBYY Cloud OCR SDK 可以做到。
使用processTextField 方法识别文本字段。
您可以在 ABBYY's website 上找到详细文档。
如果您需要任何帮助,请随时在 cmets 中问我(我为 ABBYY 工作)。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-04-02
    • 2019-08-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多