【问题标题】:high volume scanning and ocr automatic solution? [closed]大容量扫描和ocr自动解决方案? [关闭]
【发布时间】:2009-05-21 23:26:17
【问题描述】:

我们需要大容量扫描和 ocr 解决方案

我们正在谈论每天将大约 4000 个文档数字化,并将它们保存为带有 ocr(隐藏文本)的 pdf 文件...

该解决方案应让操作员扫描文档并自动将文件保存到特定的网络资源,以供将其上传到数据库的应用程序获取...

我们正在评估来自 kofax http://www.kofax.com/ 的企业解决方案

您还知道哪些其他产品?

有类似要求的经验吗?

任何开源(或至少可访问的)解决方案?

com、activex api 支持吗?

【问题讨论】:

    标签: document ocr scanning kofax


    【解决方案1】:

    有许多扫描产品供应商可以做您想做的事情 - 扫描、索引、生成带有 OCR 覆盖的 PDF(我个人更喜欢 PDF 中的 OCR 底层)。对于专门从事扫描的供应商来说,这些要求是微不足道的。仅举几个除 Kofax 之外的其他供应商/产品:

    • EMC/Captiva 的 InputAccel 产品
    • 数据帽
    • eCopy ShareScan
    • Verity/Cardiff/Autonomy

    许多文档管理解决方案还具有内置的扫描前端,但它们通常不如专用捕获产品功能强大。几乎所有这些解决方案都支持 COM/ActiveX API。我不知道任何用于扫描的开源解决方案,但我也从未真正搜索过任何解决方案。

    大多数扫描软件供应商都使用“批量”或“容量”许可证。通常,卷在期限结束时更新(即每年 100 万页 - 每年自动更新,无需额外费用)。因此,从某种意义上说,如果您每年购买 100 万张图像并且最终只扫描 500K 页,则您不会严格按照“每页”付费,您不会获得退款。一次性卷不会自动续订并且当它用完时,您需要购买额外的卷,但这种情况不太常见。大多数供应商正在从加密狗转移到控制数量并转向软件许可。

    关于 Kofax 的旁注:

    Kofax 历来是通过增值经销商系统销售的,因此各种实施的质量可能会有很大差异。此外,它还具有高度可定制性,并具有多种风格和大量附加模块,因此一个客户的 Kofax 系统可能与其他系统有很大不同。

    Kofax 用于企业级系统,每年扫描和自动捕获数以百万计的文档。它在文档扫描市场份额中占有相当大的份额。不,我不是 Kofax 的粉丝,如果我是的话,我就不会提到竞争产品了。但是,我对它非常熟悉。与市场上的其他产品一样,它也有优点和缺点。我意识到迈克尔只是在转述他所听到的内容,但我不能不发表评论就让这种笼统的概括通过。说具有很大市场份额的产品对扫描“没有用或用户友好”有点像说“Windows 不是有用的服务器操作系统”。笼统的概括太笼统了。

    干杯,

    布赖恩

    【讨论】:

    • 这个奇怪的不受欢迎的话题(大容量图像捕获)的好答案。
    【解决方案2】:

    Kofax 不是很有用或用户友好(根据我与县合作的同行)。够用了,但不是很好。

    我们使用全 Adob​​e 解决方案。详细信息(我不负责管理该区域,因此我必须为您收集一些信息)。

    更新:我们使用

    Adobe Acrobat Capture 3.0
    两台带 ADF 的 RICOH 彩色扫描仪 IS760D
    Acrobat Standard 或 Professional(取决于用户)

    我们拥有一个庞大的图书馆(近 6,000 个文档),其中包含数十万个可用的扫描页面。进行扫描的计算机上有一个我们购买的加密狗(250,000 次扫描,直到我们需要购买“更新”);自从处理那一天的绅士回家后,我没有可用的费用,但我记得它是每页微美分。

    我们经常扫描数百页需要当天完成的文档,完成这项任务没有问题。

    如果您想了解我们所做的工作,请访问 http://acequia.ccrfcd.org/FileLibrary2/FileLibrary.aspx 获取我们的一些工作(网络前端或分类)的链接。

    至于将这些 PDF 放入数据库,创建一个应用程序(可能是一个服务)来监控目录并抓取 Capture 运行后弹出的每个 PDF,将信息复制到数据库中,这很容易,然后要么删除它,要么把它移到新家。

    【讨论】:

    • 非常感谢您提供的信息,michael,如果您能提供告诉我每个 pega 的成本,那就太好了...顺便说一句,每个提供商都实施每页策略吗?我认为 kofax 提供了一个类似的解决方案,一个加密狗,您为每个扫描的页面付费......
    【解决方案3】:

    PSIGEN 是 Kofax 的绝佳替代品,功能丰富且价格合理。

    Kofax Alternative Scanning and Capture Application

    【讨论】:

      【解决方案4】:

      您希望 OCR 的效果如何?您是否需要所有内容都是人类可读的,还是只需要一些内容来对文档进行分类(客户编号;文档类型;条形码...)。

      http://www.irislink.com 是一家开发文档扫描和分类解决方案的公司。
      他们的软件包含在多个品牌的多功能和消费扫描仪中。 该公司更倾向于提取和使用信息(例如,将发票自动输入会计软件)。
      我的经验是它比 Kofax(我们两者都使用)更好地处理 OCR 文本(更正单词等);尽管 Kofax 可以进一步扩展以达到更好的水平(这意味着更多的设置工作和更多的维护)。

      这两款软件在处理文档方面都非常有用。
      如果您只想扫描文件;转换为 pdf 并保存在网络共享中;您可能已经足够购买一台好的扫描仪并使用随附的软件了。
      您可能还希望查看 tesseract 项目;这是一个开源的ocr引擎,效果很好。

      【讨论】:

        【解决方案5】:

        您可以试用 ChronoScan,它通过 tesseract 提供免费的 OCR,并具有表单识别选项,并且可免费用于非商业用途。

        该软件处于高级开发阶段,您有一个论坛可以直接与开发人员交谈。

        http://www.chronoscan.org Short video reading forms

        【讨论】:

          猜你喜欢
          • 2010-12-01
          • 1970-01-01
          • 2018-07-30
          • 2014-05-22
          • 2011-09-05
          • 1970-01-01
          • 2014-03-09
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多