【发布时间】:2012-09-12 10:45:06
【问题描述】:
The Foo Fighters performed at...
(The Foo) (Foo Fighters) (Fighters performed) (performed at)...
我有一个由许多句子连接而成的 2-gram 列表。我想从整个列表中提取两个和三个单词(The Foo Fighters、Bill Gates)的短语。但我想拒绝较长的短语 (to cancel this newsletter, please click...)。
编辑:也就是说,我想提取那些可能是实体的短语,例如名词。
对此有什么好的方法?
我想出的最简单的方法是只考虑两个词的短语并过滤停用词。但它不会接受The Foo Fighters。我还简要地考虑过使用 TF-IDF 来降低太常见的短语。
【问题讨论】:
-
你是说你想要 common 2 克和 3 克? (换句话说,
Bill Gates或The Foo Fighters与其他 2-gram 和 3-gram 有何区别?) -
是的,我猜这就是最简单的方法。但如果它们是重复句子(或句子片段)的一部分,我也想拒绝它们。
-
所以您想要每次出现在不同上下文中的常见 2/3-gram? (还有 - 你想要专有名词的所有 n-gram,以便它们大写吗?)
-
是的,如果这让他们可能认为他们是实体(如专有名词/普通名词)。而且它们可能不会大写,因为它们是像电子邮件一样的随意交流。
-
不过,这似乎很明显应该在您的方法中得到重视。 (你也可以考虑非大写的频率,并减少它的权重)。
标签: python algorithm information-retrieval