【发布时间】:2010-09-05 09:38:19
【问题描述】:
我已配置索引服务来索引我的文件,其中还包括保存为高分辨率 TIFF 文件的扫描图像。我还安装了 MS Office 2003+ 并正确配置了 MS Office Document Imaging (MODI),因此我可以在我的图像上执行OCR,甚至可以将OCR'd 文本嵌入到 TIFF 中。
索引服务能够索引和查找那些手动 OCR 并使用文本数据重新保存的 TIFF-s(使用 MS Document Imaging 工具)。
事实证明,与 Windows XP SP2 一起部署的数据执行保护 (DEP) 认为 MODI 是恶意的,并且拒绝让它发挥作用。我已经能够通过完全关闭 DEP 来让它工作,但我发现这个解决方案并不优雅。
是否有更好的解决方案可以在不禁用 DEP 的情况下完成这项工作?
【问题讨论】:
-
我尝试了同样的事情并遇到了一些相同的限制。我还发现 MODI 对大量图像进行索引太慢了。
-
有一个hotfix 似乎可以解决这个问题。
-
我不知道你的环境,但是与其依赖一些可能会在许多关节处损坏的混合魔法,为什么不使用 tesseract ocr + lucene 之类的小应用程序呢?
-
@TuncayGöncüoğlu:是的,我早就离开了 Modi 和 Indexing Service。我保留这个非常古老的问题只是出于历史目的。
标签: ocr modi indexing-service