【发布时间】:2015-03-19 19:24:42
【问题描述】:
我有一个 PDF 文件,其中包含我们需要导入数据库的数据。 该文件是打印文本的 pdf 扫描文件。 数据的结构是这样的
N° Facture : 45526203
Date : 01/12/2014
Nom de la société : company
但是这些数据并不总是出现在文档的相同区域。所以我想要一个可以识别这个文件的工具或 API。任何建议表示赞赏。
【问题讨论】:
-
读完每一行后,你可以用
Regex.Match(yourLine,RegexString).Value提取数字、日期或任何你想要的类型 -
你可以去leadtools.com/sdk/ocr看看。它允许您从图像中提取文本并以不同的格式输出。然后你只需要解析结果来找到你需要的信息
标签: c# pdf ocr text-extraction