【问题标题】:Which words to omit?哪些词要省略?
【发布时间】:2013-09-13 04:01:11
【问题描述】:

我试图在两个句子之间找到一些相似性度量。我利用了两个词的个体语义相似性。但是字典中有很多单词是我从我的句子中提取出来的。我想从句子中删除一些我认为不能传达有关内容信息的单词。首先,我删除了字母较少的单词,但我认为这不合理,因为它也删除了一些信息性单词。

在这里看一些句子的部分

"Despite the fact that ..."
"There's a debate such that ..."
"To sum up ..."
"Although ..., there is ..."

如果我有一个包含这些单词的文本文件,我会将它们从我的字典中删除,只保留信息性单词。

是否有任何你知道的英语单词列表,以便我可以用来过滤我的字典?

【问题讨论】:

  • 我解决此类问题的方法是删除分布的头部和尾部。非常常见的词(即停用词)几乎没有添加关于相似性的信息。相反,非常罕见的单词往往是拼写错误。您必须小心唯一性的阈值。 YMMV。
  • 这是一个非常聪明的主意。感谢您的评论。我认为它也可能适用于其他语言。您能否发表评论作为答案。所以,如果没有其他好的答案,我可以接受。

标签: nlp similarity stop-words


【解决方案1】:

解决此类问题的一种方法是删除分布的头部和尾部。非常常见的词(即停用词)几乎没有添加关于相似性的信息。相反,非常罕见的单词往往是拼写错误。您必须注意唯一性的阈值,这取决于您的语料库的来源和异质性:用户生成的输入往往包含比维基百科等精选来源的内容更多的独特拼写错误。

【讨论】:

    【解决方案2】:

    有可用的常用“停用词”列表,例如,here

    停用词也可能在某种程度上取决于领域。例如,US Patent Full Text Database 显然认为“声明”和“实施”非常普遍,我怀疑这对于非专利特定文件是正确的。

    【讨论】:

    • 其实我要找的关键词是“停用词”。当我搜索“最常见的单词”时,我看到了语言类 :) 非常感谢。
    • 是的,“停用词”不是立即浮现在脑海中的术语。不熟悉这个词的人会怎么想?
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2013-07-02
    • 1970-01-01
    • 1970-01-01
    • 2021-02-21
    • 2022-01-16
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多