【发布时间】:2013-09-13 04:01:11
【问题描述】:
我试图在两个句子之间找到一些相似性度量。我利用了两个词的个体语义相似性。但是字典中有很多单词是我从我的句子中提取出来的。我想从句子中删除一些我认为不能传达有关内容信息的单词。首先,我删除了字母较少的单词,但我认为这不合理,因为它也删除了一些信息性单词。
在这里看一些句子的部分
"Despite the fact that ..."
"There's a debate such that ..."
"To sum up ..."
"Although ..., there is ..."
如果我有一个包含这些单词的文本文件,我会将它们从我的字典中删除,只保留信息性单词。
是否有任何你知道的英语单词列表,以便我可以用来过滤我的字典?
【问题讨论】:
-
我解决此类问题的方法是删除分布的头部和尾部。非常常见的词(即停用词)几乎没有添加关于相似性的信息。相反,非常罕见的单词往往是拼写错误。您必须小心唯一性的阈值。 YMMV。
-
这是一个非常聪明的主意。感谢您的评论。我认为它也可能适用于其他语言。您能否发表评论作为答案。所以,如果没有其他好的答案,我可以接受。
标签: nlp similarity stop-words