【问题标题】:Sitecore text search in PDF or Word documents在 PDF 或 Word 文档中搜索 Sitecore 文本
【发布时间】:2011-07-05 14:28:46
【问题描述】:

我想了解是否可以将 Sitecore 的 Lucene 搜索引擎配置为索引 PDF 或 Word 文档?我在本文档 (http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf) 上查看了 Sitecore 支持站点,但它提到了创建一个文件爬虫类,这向我表明只有通过编写自定义代码才能实现这一点。如果我确实需要编写自定义代码来执行此操作,我是否还需要一些 API 才能从 PDF 文档中提取文本内容?

【问题讨论】:

    标签: c# asp.net sitecore sitecore6 sitecore-media-library


    【解决方案1】:

    我最近不得不在我的一个项目中做类似的事情。 看看How to index Word 2003, 2007 and 2010 documents using Lucene.NET

    我最终创建了一个自定义索引器,用于处理 MS Office 文档(XP、2003、2007 和 2010 格式)和 PDF 文档:

    • 要索引 XP-2003 MS Office 文档,您可以使用操作系统内置的IFilters(假设您使用的是 Windows Server 2003 或更高版本)
    • 要索引 2007-2010 MS Office 文档,您需要安装 Microsoft Office 2010 Filter Packs
    • 对于 PDF 文档的索引,我强烈建议使用 Foxit PDF IFilter。它不是免费的,但比 Adob​​e PDF IFilter 做得更好。

    注意:不要在 Adob​​e PDF IFilter 上浪费时间:它无法读取有效的 PDF 文件并且速度很多慢。 Foxit IFilter 旨在利用多核 CPU 并在大型文档上表现得更好。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-05-23
      • 1970-01-01
      • 2013-09-25
      • 1970-01-01
      • 2014-02-04
      • 1970-01-01
      相关资源
      最近更新 更多