【发布时间】:2010-03-05 10:12:15
【问题描述】:
我正在构建一个包含特殊名称的搜索索引 - 包含 !和 ?和 & 和 + 和 ... 我必须以不同的方式进行以下搜索:
我和你
我+你
但无论我做什么(在索引之前尝试使用 queryparser 转义,手动转义它,尝试不同的索引器......) - 如果我用 Luke 检查搜索索引,它们不会出现(问号和 @-symbols 和喜欢出现)
背后的逻辑是我正在对实时建议进行部分搜索(并且字段不是那么大)所以我将它分成“m”和“me”和“+”和“y”和“yo " 和 "you" 然后索引它(这样比通配符查询搜索要快得多(而且索引大小不是大问题)。
所以我需要将这个特殊的通配符也插入到索引中。
这是我的代码:
using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;
using Lucene.Net.Analysis;
using Lucene.Net.Util;
namespace AnalyzerSpike
{
public class CustomAnalyzer : Analyzer
{
public override TokenStream TokenStream(string fieldName, TextReader reader)
{
return new ASCIIFoldingFilter(new LowerCaseFilter(new CustomCharTokenizer(reader)));
}
}
public class CustomCharTokenizer : CharTokenizer
{
public CustomCharTokenizer(TextReader input) : base(input)
{
}
public CustomCharTokenizer(AttributeSource source, TextReader input) : base(source, input)
{
}
public CustomCharTokenizer(AttributeFactory factory, TextReader input) : base(factory, input)
{
}
protected override bool IsTokenChar(char c)
{
return c != ' ';
}
}
}
创建索引的代码:
private void InitIndex(string path, Analyzer analyzer)
{
var writer = new IndexWriter(path, analyzer, true);
//some multiline textbox that contains one item per line:
var all = new List<string>(txtAllAvailable.Text.Replace("\r","").Split('\n'));
foreach (var item in all)
{
writer.AddDocument(GetDocument(item));
}
writer.Optimize();
writer.Close();
}
private static Document GetDocument(string name)
{
var doc = new Document();
doc.Add(new Field(
"name",
DeNormalizeName(name),
Field.Store.YES,
Field.Index.ANALYZED));
doc.Add(new Field(
"raw_name",
name,
Field.Store.YES,
Field.Index.NOT_ANALYZED));
return doc;
}
(代码与版本 1.9.x 中的 Lucene.net 一起使用(编辑:抱歉 - 是 2.9.x)但与 Java 中的 Lucene 兼容)
谢谢
【问题讨论】:
-
你确定你的意思是 1.9.* 吗?您提到 asciifoldingfilter 听起来像是 2.9 的变体。
-
我应该补充一点,您所描述的要点听起来不错,所以我怀疑我们在您的分析器中没有看到的代码存在问题。例如,您是从另一个类派生它而不是覆盖您需要的所有方法吗?
-
对不起 - 你是完全正确的 - 它的 2.9.x 版本 - 谢谢!我更新了我的问题并包含了所有相关代码(非规范化代码只是一种自定义方法,用于添加所有空格以加快搜索速度。
标签: lucene lucene.net wildcard indexer