使用 Lucene.Net 索引数据的指南答案

【问题标题】：Guide line for indexing data with Lucene.Net使用 Lucene.Net 索引数据的指南
【发布时间】：2014-05-29 09:15:23
【问题描述】：

我已经阅读了一篇关于如何使用 Lucene.Net 索引数据的小文章，但我不清楚这些代码的含义是什么

Document doc = new Document();
doc.Add(new Field("ID", oData.ID.ToString() + "_" + oData.Type, Field.Store.YES, Field.Index.UN_TOKENIZED));
doc.Add(new Field("Title", oData.Title, Field.Store.YES, Field.Index.TOKENIZED));
doc.Add(new Field("Description", oData.Description, Field.Store.YES, Field.Index.TOKENIZED));
doc.Add(new Field("Url", oData.Url, Field.Store.YES, Field.Index.TOKENIZED));
writer.AddDocument(doc);

这行doc.Add(new Field("ID", oData.ID.ToString() + "_" + oData.Type, Field.Store.YES, Field.Index.UN_TOKENIZED));是什么意思

Field.Index.UN_TOKENIZED and Field.Index.TOKENIZED是什么意思

如果可能，请详细讨论这些词的重要性UN_TOKENIZED and Field.Index.TOKENIZED。

【问题讨论】：

标签： c# lucene.net

【解决方案1】：

Lucene 已弃用 TOKENIZED 和 UN_TOKENIZED，现在将它们命名为 ANALYZED 和 NOT_ANALYZED。

NOT_ANALYZED 的含义是，字段内容将不会通过分析器运行。实际上，如果搜索它们，它们将被视为单个“术语”。作为一个有用的例子，documentation 命名唯一的产品 ID（即 EANs 或 UPCs）。

ANALYZED 的含义意味着将分析字段内容并（可能）将其分解为多个“术语”。 Lucene 文档提到这对普通文本很有用。这个question 的公认答案很好地解释了一些常用的分析器。

如需进一步参考，请参阅Lucene.net 和Lucene 文档。

【讨论】：