【问题标题】:A confusion about the porter stemming algorithm关于波特词干算法的困惑
【发布时间】:2015-07-16 00:57:03
【问题描述】:

我正在尝试实现搬运工词干算法,但我在这一点上绊倒了

方括号表示 任意存在其内容。 用 (VC){m} 表示 VC 重复 m 次,这又可以写成

[C](VC){m}[V].

m 将被称为任何的 \measure\ 表示时的单词或单词部分 这种形式。情况 m = 0 涵盖 空字。以下是一些示例:

m=0    TR,  EE,  TREE,  Y,  BY.
m=1    TROUBLE,  OATS,  TREES,  IVY.
m=2    TROUBLES,  PRIVATE,  OATEN,  ORRERY.

我不明白这个“度量”是什么以及它代表什么?

【问题讨论】:

    标签: c++ nlp porter-stemmer


    【解决方案1】:

    看起来度量是元音紧跟辅音的次数。例如,

    “麻烦”有:

    可选的声母[C] = "TR"。

    第一个元音-辅音组(VC) = "OUBL"。

    第二个元音-辅音组(VC) = "ES"。

    可选的结尾元音[V] 为空。

    所以度量是两次,(VC) 被“匹配”的次数。

    【讨论】:

      猜你喜欢
      • 2013-08-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多