如何从 Glove 预训练的词嵌入中查询？答案

【问题标题】：How to query from Glove pre-trained word embeddings?如何从 Glove 预训练的词嵌入中查询？
【发布时间】：2017-05-20 10:42:11
【问题描述】：

在 Python 中查询预训练的 Glove（或类似的）词嵌入的推荐方法是什么？

我能想到的一个选择是：

上述方法的问题是需要先将整个数据复制到磁盘，然后需要将 2 Gigs 的数据加载到 RAM，两者都可以太贵了。

这是标准方式吗？就像从在线引擎查询一样？还是其他方式？

【问题讨论】：

您的内容指向 zip 存档而不是实际页面。
@dmitryro 已修复。谢谢
我们也有手套矢量的标签吗？我认为跟踪（至少对我而言）会很有用。
目前没有可用于 Glove 的标签。有足够声望的人可以做标签。
如何（一次性）将 glove 数据转换为 pandas 数据帧并将其保存为 HDF？使用 HDF 格式，您可以只加载数据的特定键：pandas.pydata.org/pandas-docs/stable/generated/…

【解决方案1】：

您可以做的一件事是仅抓取出现在您的测试/训练语料库中的单词并单独保存。这样您就不必在预训练的向量中加载所有其他单词（300 万）。

【讨论】：