【问题标题】:Force or boost words in carrot2 clustering labels在胡萝卜2 聚类标签中强制或增强单词
【发布时间】:2015-03-09 22:13:00
【问题描述】:

我正在使用 Carrot2 对来自 Solr 的查询结果进行聚类。是否可以强制(或至少提升)标签中某些单词的出现,无论是 Lingo、STC 还是 k-means?

使用 Lingo,这已经可以通过“标题词提升”选项来实现,它赋予文档标题中出现的词更多的权重。这可以扩展到我可以提供的其他词吗?

我想至少应该可以将所需的词附加到“标题词提升”选项所采用的字符串中,以让词提升工作,但也许这不是正确的方法。

怎么做?

【问题讨论】:

    标签: solr cluster-analysis carrot2


    【解决方案1】:

    目前API中没有公开任意词的提升功能,所以只能提升标题中包含的词。

    提升的代码在:

    https://github.com/carrot2/carrot2/blob/master/core/carrot2-util-text/src/org/carrot2/text/vsm/TermDocumentMatrixBuilder.java#L159

    您可以添加另一个属性,例如,采用逗号分隔的单词列表并提升它们。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-05-27
      • 2022-09-23
      • 1970-01-01
      • 1970-01-01
      • 2016-09-10
      • 2017-02-24
      相关资源
      最近更新 更多