【发布时间】:2019-01-11 12:31:11
【问题描述】:
有没有办法使用 fasttext 获取 OOV(Out Of Vocabulary)单词的向量,但不将所有嵌入加载到内存中?
我通常在低 RAM 环境(.vec(通常是纯文本)文件并将其存储到数据库中(稍后您可以访问该数据库以请求词向量)。但是,要获得带有 fasttext 的 OOV 向量,您需要使用 .bin 文件并将其加载到内存中。有没有办法避免加载整个.bin 文件?
【问题讨论】:
-
一个难题。这里可能有一些提示。 quora.com/…
-
感谢您的链接!从那里的描述来看,我认为仍然可以这样做,但是我想必须进行自定义实现(因为我找不到这样做的)。此外,性能肯定会受到影响:(
-
不一定。词向量是通过添加 ngram 的向量来创建的。所以你在 vec 文件中看到的是最终的向量,而不是单个的 ngram。如果你也有 ngram,那么你很幸运。
-
那么问题应该是:有没有办法从
.bin文件中提取所有的ngram?
标签: machine-learning nlp word-embedding fasttext