【发布时间】:2017-07-01 14:04:09
【问题描述】:
我正在玩FastText,https://pypi.python.org/pypi/fasttext,这与Word2Vec非常相似。由于它似乎是一个相当新的库,还没有很多内置函数,所以我想知道如何提取形态相似的词。
例如:model.similar_word("dog") -> 狗。但是没有内置函数。
如果我输入
model["dog"]
我只得到向量,它可以用来比较余弦相似度。
model.cosine_similarity(model["dog"], model["dogs"]])。
我是否必须进行某种循环并对文本中所有可能的配对执行cosine_similarity?那需要时间……!!!
【问题讨论】:
-
当 fasttext.skipgram('train.txt','model') 运行时,它会创建一个 .bin & .vec 文件。使用这些生成的文件并按照接受的答案中提到的过程进行操作。
-
@Prometheus 任何想法如何在 Java 中做类似的事情?
-
不。从来没有接触过Java。不过仅供参考,.bin 和 .vec 文件是交叉兼容的。
标签: python nlp word2vec fasttext