从公开可用的词嵌入中提取更有意义的词答案

【问题标题】：Extract more meaningful words from publicly available word embedding从公开可用的词嵌入中提取更有意义的词
【发布时间】：2018-01-19 18:43:34
【问题描述】：

我有两个公开可用的词嵌入，例如 Glove 和 Google Word2vec。然而，在他们的词汇中，有太多的拼写错误或垃圾词（例如，##AA##、adirty 等）。为了避免这个词，我想提取高频词（例如，前 50000 个词），因为我认为相对高频词具有范式。

所以，我想知道是否有一种方法可以在上述两个预训练词嵌入中找到词频。如果没有，我想知道是否有一些技术可以排除这个词。

【问题讨论】：

【解决方案1】：

GoogleNews 向量集不包含频率信息，但似乎从最频繁到最不频繁排序。因此，如果您将加载它的代码更改为仅加载前 N 个单词，您应该会得到 N 个最常用的单词。

（用于训练或使用词向量的 Python gensim 库将此作为 limit 选项包含在 load_word2vec_format() 函数中。）

GLoVe 可能遵循相同的约定 - 查看文件中的单词顺序应该会给出一个好主意。

【讨论】：