【发布时间】:2019-04-28 12:17:31
【问题描述】:
我正在尝试使用预训练的 fastText 模型嵌入文本。有些是空的。如何替换它们以使嵌入成为可能?我正在考虑用虚拟词替换它们,就像那样(文档是熊猫 DataFrame 对象):
docs = docs.replace(np.nan, 'unknown', regex=True)
然而它并没有真正的意义,因为这个词的选择是任意的,它不等同于有一个空字符串。
否则,我可以将 0 向量嵌入与空字符串或平均向量相关联,但我不相信任何一个都有意义,因为嵌入操作是非线性的。
【问题讨论】:
标签: machine-learning nlp artificial-intelligence text-classification fasttext