【问题标题】:How to get Indexing Service and MODI to produce Full-text over OCR?如何让索引服务和 MODI 通过 OCR 生成全文?
【发布时间】:2010-09-05 09:38:19
【问题描述】:

我已配置索引服务来索引我的文件,其中还包括保存为高分辨率 TIFF 文件的扫描图像。我还安装了 MS Office 2003+ 并正确配置了 MS Office Document Imaging (MODI),因此我可以在我的图像上执行OCR,甚至可以将OCR'd 文本嵌入到 TIFF 中。

索引服务能够索引和查找那些手动 OCR 并使用文本数据重新保存的 TIFF-s(使用 MS Document Imaging 工具)。

事实证明,与 Windows XP SP2 一起部署的数据执行保护 (DEP) 认为 MODI 是恶意的,并且拒绝让它发挥作用。我已经能够通过完全关闭 DEP 来让它工作,但我发现这个解决方案并不优雅。

是否有更好的解决方案可以在不禁用 DEP 的情况下完成这项工作?

【问题讨论】:

  • 我尝试了同样的事情并遇到了一些相同的限制。我还发现 MODI 对大量图像进行索引太慢了。
  • 有一个hotfix 似乎可以解决这个问题。
  • 我不知道你的环境,但是与其依赖一些可能会在许多关节处损坏的混合魔法,为什么不使用 tesseract ocr + lucene 之类的小应用程序呢?
  • @TuncayGöncüoğlu:是的,我早就离开了 Modi 和 Indexing Service。我保留这个非常古老的问题只是出于历史目的。

标签: ocr modi indexing-service


【解决方案1】:

为特定应用禁用 DEP。

如何禁用特定应用程序的 DEP

  1. 单击 Windows 计算机上的“开始”按钮,然后选择“计算机”>“系统属性”>“高级系统设置”。
  2. 从“系统属性”对话框中,选择“设置”。
  3. 选择“数据执行保护”选项卡。
  4. 选择为除我选择的程序和服务之外的所有程序和服务启用 DEP。

单击添加并使用浏览功能浏览到要排除的程序可执行文件,例如 excel.exe 或 word.exe。

根据您的 Windows 版本,您可能需要通过在 Windows 资源管理器中右键单击此 PC 或计算机来访问“系统属性”对话框。

  1. 在 Windows 资源管理器中,右键单击并选择属性 > 高级系统设置 > 系统属性。
  2. 选择高级 > 性能 > 数据执行保护。
  3. 选择为除我选择的程序和服务之外的所有程序和服务启用 DEP。
  4. 单击添加并使用浏览功能浏览到要排除的程序可执行文件。

排除:

C:\Program Files\Common Files\Microsoft Shared\MODI\11.0\MSPOCRDC.EXE  
C:\Program Files\Common Files\Microsoft Shared\MODI\11.0\MSPSCAN.EXE  
C:\Program Files\Common Files\Microsoft Shared\MODI\11.0\MSPVIEW.EXE

不属于答案的其他信息:

要在最新版本的 Windows 上获取和安装 MODI,请参阅:
"Microsoft Office Document Imaging – Office 2010 to Office 2016"

参考资料:

Exclude Programs From DEP (Data Execution Prevention)

Microsoft Office Document Scanning error

MODI 是(免费)“Microsoft SharePoint Designer 2007”的一部分。

【讨论】:

  • 感谢您花时间编译这些说明。我记得当时无法确定从 DEP 中确切排除的 什么。我不愿接受答案,因为我不再有办法验证解决方案,但我已投赞成票。
  • 谢谢。也许如果它获得了十几个 UpVote 是正确的。链接说它适用于多人。我的目的是清理未回答的问题队列。
猜你喜欢
  • 1970-01-01
  • 2016-12-12
  • 2012-11-26
  • 2018-05-30
  • 1970-01-01
  • 1970-01-01
  • 2013-09-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多