【问题标题】:Most accurate open-source OCR for Japanese? [closed]最准确的日语开源 OCR? [关闭]
【发布时间】:2011-02-03 04:54:57
【问题描述】:

根据您的经验,阅读日语文本最准确的开源光学字符识别 (OCR) 库/软件是什么?

我刚试过nhocr,即使在非常干净的高清文档上,它的错误率也超过2%。

【问题讨论】:

  • 就其价值而言,2% 对 OCR 来说并不可怕。我们很难用,嗯,罗马字来做到这一点。
  • 2% 用于大字体的超干净字符。对于扫描的书籍,情况更糟,更不用说手写形式了。

标签: open-source ocr


【解决方案1】:

由于缺乏答案,听起来 nhocr 是日语最准确的开源 OCR。

【讨论】:

    【解决方案2】:

    我自己没试过,但也许你应该看看tesseract

    【讨论】:

    【解决方案3】:

    我对 ABBYY 的解决方案 - FineReader Engine 有一些研发经验。当时是 8.1 版,我不了解他们的最新版本。但在当时——这简直是我能为我们的手持式扫描仪产品找到的最好的。我强烈推荐它。

    顺便说一句,在购买 XEROX PE220 打印机时,您可以获得免费版本的 ABBYY OCR 包,供最终用户使用,它是捆绑在一起的。那台打印机在我的桌子上放了好几年。必须有其他打印机捆绑在里面。 Xerox 也认为 OCR 是最好的。

    【讨论】:

    • FineReader 不是开源的。而且你使用的版本不支持日语:abbyy.com/Default.aspx?DN=b6d671c1-6da6-4bec-8c06-0ad362f6a7e9
    • 抱歉,没有看到开源请求。它不是开源的。我使用的版本支持 CJK(中文、日文和韩文),这是引擎的附加组件。我们用它来向东南部买家展示我们的技术。请参阅:ocr.gr/downloads/Engine%208.1%20What's%20New.pdf(复制 URL,因为它会破坏它)
    • @Etamar ABBYY OCR 很有趣。它们是否允许与自定义词典集成、自定义二元组分析等?我们需要使用这些技术来提高 OCR 的准确性。
    • @phaedrus 简而言之-是的。我多年来一直在使用他们的引擎,并且可以集成我想要的任何东西。字典是一项基本功能,您可以自定义它们。为禅与艺术喝彩。
    • @Etamar 感谢您的 cmets :)
    【解决方案4】:

    请尝试WeOCR。提供服务器版和下载版。

    【讨论】:

    • 如果我理解得很好,WeOCR 只是其他 OCR 引擎的 Web 前端。特别是,它使用 nhocr 表示日语。所以我猜它并不比 nhocr 更准确,对吧?
    • 查看weocr.ocrgrid.org/#todo TODO 项目之一是“为日语开发 OCR”,它链接到 nhocr
    • 是的。那是正确的。就在几个月前,我尝试了他们的在线服务器版本。但这远非准确。日本手机。特别是夏普手机具有相当出色的 OCR 能力。但我没有找到其他免费的 OCR 软件。当然,夏普目前不销售他们的 OCR 软件。
    猜你喜欢
    • 1970-01-01
    • 2011-07-06
    • 2010-12-26
    • 2017-07-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-09-16
    相关资源
    最近更新 更多