【问题标题】:How to index files such as .txt,.pdf,.doc etc using lucene.net?如何使用 lucene.net 索引 .txt、.pdf、.doc 等文件?
【发布时间】:2012-06-01 18:59:30
【问题描述】:

我是 Lucene .net 的新手。如何使用 lucene.net 索引 .txt、.pdf、.doc 等文件?以及我们可以使用 lucene.net 索引哪些文件?

【问题讨论】:

  • 你看过哪些文章?

标签: lucene.net


【解决方案1】:

Lucene.net 不知道索引特定文件。您必须自己索引文件。

我会使用 IFilters 提取文档中的文本,然后使用 Lucene.net 创建搜索索引。

您可以在 codeproject.com 上搜索有关使用 IFilters 和 lucene.net 的多篇文章

【讨论】:

    【解决方案2】:

    在索引文件之前,您需要以适当的方式从中提取文本。 Lucene 或 Lucene.net 不这样做。对于文本提取,您可以在 Windows 中使用 IFilter。 IFilters 可能不稳定,您需要使用有线程问题的 COM。此外,对不同版本的文档使用不同的 ifilter 确实很麻烦。

    http://www.codeproject.com/Articles/13391/Using-IFilter-in-C

    www.ifilter.org

    文本提取有商业替代品,但它们确实很昂贵。

    http://www.isys-search.com/products/document-filters

    http://www.oracle.com/us/technologies/embedded/025613.htm

    Apache Tika 是一个很好的商业开源替代品。它是用 Java 编写的。

    http://tika.apache.org/

    我强烈建议使用 Apache Solr/Lucene 和一个好的 Solr .NET client 而不是 Lucene.net。 Solr 内置了 Tika 集成,可以实现您想要做的事情。您无需了解 Java 即可使用 Solr。它是一个独立的 Web 服务,可以在轻量级应用服务器上运行。

    如果您使用 Lucene.Net 构建文档搜索解决方案,您将遇到许多 Solr 已经解决的问题。

    http://www.lucidimagination.com/devzone/technical-articles/content-extraction-tika

    http://wiki.apache.org/solr/ExtractingRequestHandler

    这里有很好的关于 Lucene 与 Solr 的讨论。

    Search Engine - Lucene or Solr

    【讨论】:

      猜你喜欢
      • 2010-11-19
      • 2011-05-25
      • 2010-11-06
      • 1970-01-01
      • 2015-06-01
      • 2021-08-03
      • 2017-12-06
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多