【发布时间】:2011-03-25 04:49:21
【问题描述】:
有什么方法可以从扫描文档中获取 jpg jpeg 或任何其他格式的文本?我使用 ruby 作为我的编程语言。但是我想如果我可以在其他编程语言的帮助下获得文本,那么集成不会有太大问题。
谢谢。
【问题讨论】:
-
wiki OCR,en.wikipedia.org/wiki/OCR
标签: programming-languages jpeg ocr
有什么方法可以从扫描文档中获取 jpg jpeg 或任何其他格式的文本?我使用 ruby 作为我的编程语言。但是我想如果我可以在其他编程语言的帮助下获得文本,那么集成不会有太大问题。
谢谢。
【问题讨论】:
标签: programming-languages jpeg ocr
是的,您可以使用 OCR 库。 https://stackoverflow.com/questions/1085/free-ocr-library 有更多详细信息。
简而言之,您不妨考虑使用 tessnet (http://www.pixel-technology.com/freeware/tessnet2/)。
【讨论】:
这项技术称为光学字符识别 (OCR)。
编程,check out this question,推荐tesseract-ocr。
【讨论】:
OCR 终端http://www.ocrterminal.com 是我用过的至少十几种免费工具中最好的(最准确的)免费工具。它特别适用于格式化(表格)数据。
【讨论】: