【发布时间】:2017-12-10 02:49:16
【问题描述】:
我正在使用 Gensim Phrases 来识别我的文本中的重要 n-gram,如下所示。
bigram = Phrases(documents, min_count=5)
trigram = Phrases(bigram[documents], min_count=5)
for sent in documents:
bigrams_ = bigram[sent]
trigrams_ = trigram[bigram[sent]]
但是,这会检测到无趣的 n-gram,例如 special issue、important matter、high risk 等。我对检测文本中的概念特别感兴趣,例如 machine learning、human computer interaction 等。
有没有办法阻止短语检测到我在上面的示例中提到的不感兴趣的 n-gram?
【问题讨论】:
-
定义“无趣”或“有趣”。
-
@CharlesPehlivanian 我已经给出了例子
标签: python nlp word2vec gensim