低 RAM 环境中 Fasttex 的 OOV（词汇表外）词嵌入

【问题标题】：OOV (Out Of Vocabulary) word embeddings for Fasttex in low RAM environments低 RAM 环境中 Fasttex 的 OOV（词汇表外）词嵌入
【发布时间】：2019-01-11 12:31:11
【问题描述】：

有没有办法使用 fasttext 获取 OOV（Out Of Vocabulary）单词的向量，但不将所有嵌入加载到内存中？

我通常在低 RAM 环境（.vec（通常是纯文本）文件并将其存储到数据库中（稍后您可以访问该数据库以请求词向量）。但是，要获得带有 fasttext 的 OOV 向量，您需要使用 .bin 文件并将其加载到内存中。有没有办法避免加载整个.bin 文件？

【问题讨论】：

一个难题。这里可能有一些提示。 quora.com/…
感谢您的链接！从那里的描述来看，我认为仍然可以这样做，但是我想必须进行自定义实现（因为我找不到这样做的）。此外，性能肯定会受到影响:(
不一定。词向量是通过添加 ngram 的向量来创建的。所以你在 vec 文件中看到的是最终的向量，而不是单个的 ngram。如果你也有 ngram，那么你很幸运。
那么问题应该是：有没有办法从.bin文件中提取所有的ngram？

标签： machine-learning nlp word-embedding fasttext

【解决方案1】：

对我有用的是设置一个巨大的交换分区以允许模型加载，然后我将向量的大小从 300 减少到 100 以使模型完全适合内存。

【讨论】：

猜你喜欢

2018-06-09
2018-01-11
1970-01-01
1970-01-01
2018-08-21
2021-04-18
2019-09-01
2021-11-09
2021-11-30

相关资源

下载 2022-12-06
下载 2023-03-05
下载 2022-12-26
下载 2023-03-23

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode