【发布时间】:2018-04-09 14:58:29
【问题描述】:
找出在某个词 X 附近频繁出现哪些词的最佳方法是什么? (注意:NOT 哪些词与词 X 最相似)
我有 GloVe 词向量,所以每个向量代表一些词在不同环境中的分布(每个维度都是一个环境)。那么我如何从这些环境中检索单词呢?换句话说,我如何检索仅在一个维度上相似的单词?
我尝试只在一个维度上寻找更接近 X 的单词,忽略其余的,但这给了我垃圾词。
附: 到目前为止,我是找到与单词 X 最接近的 N 个单词(通过余弦相似度),然后对这些单词应用 K-means 聚类。它工作得很好,但我担心N个最近的词不一定是出现在词X附近的词,而是出现在与词X相似的环境中的词。
编辑: 澄清:仅收集 n-gram 计数是不够的,因为我确实正在寻找一种仅使用向量的方法,即无需访问语料库本身。原因是一些免费提供的预训练向量是在 TB 数据上训练的。例如,如果可以以某种方式从预训练的向量中获取这些信息,那么存储整个 n-gram 计数以进行普通爬网将是非常浪费的。
【问题讨论】:
标签: nlp stanford-nlp data-mining word2vec linguistics