【发布时间】:2013-11-23 11:41:27
【问题描述】:
假设您想为 github 或 stackoverflow 之类的网站创建一个搜索引擎,其中大部分文本内容实际上是源代码。什么是处理这种类型文档的好 Lucene 标记器?
【问题讨论】:
-
一般来说,源代码使用空格和标点符号来分隔事物,所以我认为简单地使用
StandardAnalyzer可能会工作得很好,或者可能像StandardAnalyzer这样的自定义分析器但没有LowercaseFilter, 取决于你的需要。您是否正在寻找一些特定的功能,就您希望如何对代码进行标记?