【问题标题】:Tokenizer for indexing source code用于索引源代码的标记器
【发布时间】:2013-11-23 11:41:27
【问题描述】:

假设您想为 github 或 stackoverflow 之类的网站创建一个搜索引擎,其中大部分文本内容实际上是源代码。什么是处理这种类型文档的好 Lucene 标记器?

【问题讨论】:

  • 一般来说,源代码使用空格和标点符号来分隔事物,所以我认为简单地使用StandardAnalyzer 可能会工作得很好,或者可能像StandardAnalyzer 这样的自定义分析器但没有LowercaseFilter , 取决于你的需要。您是否正在寻找一些特定的功能,就您希望如何对代码进行标记?

标签: solr lucene tokenize


【解决方案1】:

这就是您要查找的内容:http://www.opensourceconnections.com/2013/02/18/indexing-stackoverflow-in-solr/。这涵盖了所有步骤等等。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2014-10-31
    • 1970-01-01
    • 1970-01-01
    • 2011-05-09
    • 1970-01-01
    • 2011-12-09
    • 1970-01-01
    相关资源
    最近更新 更多