【问题标题】:Frequencies of lucene unigrams and bigramslucene unigrams和bigrams的频率
【发布时间】:2011-04-04 16:45:25
【问题描述】:

我将 lucene 索引 ngram 存储到第 3 级。当我阅读索引并计算术语和 ngram 的评分时,我得到这样的结果

TERM              FREQUENCY....      TFIDF
minority           25           16.512926
minority report 24           16.179296
report           27           13.559037
cruise           12           11.440491
tom cruise        7            8.737819

所以,如果我们看一下“tom Cruise”的例子,它作为二元组一起出现了 7 次。从这里我们看到“巡航”单独发生了5次。所以我不想要这种重复频率,因为单独的“cruise”比“tom Cruise”得分更高,这是不正确的,因为它包含在里面。

对不起,如果我解释不好我不知道如何调用这种评分,如果有人知道解释这个技术词,请编辑。

谢谢

【问题讨论】:

    标签: java lucene indexing scoring frequency-analysis


    【解决方案1】:

    我相信我回答了您不久前提出的类似问题。 IIUC,你想让更重要的术语脱颖而出,你觉得“tom Cruise”比“cruise”更重要。

    这看起来像是您的数据模型中的一个问题。 TFIDF 似乎不符合您的要求。 您可以尝试构建语言模型,如Peter Norvig's "Beautiful Data" chapter 中所述。

    要点是:

    • 计算每个 unigram、bigram 和 trigram 的概率(您将需要平滑或回退,如本文所述)。
    • 根据概率而不是 TFIDF 选择您的术语。

    A Language Model Approach to Keyphrase Extraction 似乎做了类似的事情。一些替代方案是Kea(它使用 TFIDF 作为多个功能之一)和Peter Turney's Keyphrase extraction work

    【讨论】:

    • 非常感谢您的提示。我选择了 Kea,但似乎提供了更多特定领域的受控词汇表,但是从 Kea 页面我读到了有关 Maui 的信息,它具有一些附加功能。 code.google.com/p/maui-indexer我看到我得到的结果非常好!但是,我现在将尝试查看算法和评分计算的详细信息..Thanx!
    猜你喜欢
    • 2023-03-12
    • 2012-08-28
    • 2022-11-22
    • 2019-01-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多