【问题标题】:Replacing empty texts - text embedding替换空文本 - 文本嵌入
【发布时间】:2019-04-28 12:17:31
【问题描述】:

我正在尝试使用预训练的 fastText 模型嵌入文本。有些是空的。如何替换它们以使嵌入成为可能?我正在考虑用虚拟词替换它们,就像那样(文档是熊猫 DataFrame 对象): docs = docs.replace(np.nan, 'unknown', regex=True)

然而它并没有真正的意义,因为这个词的选择是任意的,它不等同于有一个空字符串。

否则,我可以将 0 向量嵌入与空字符串或平均向量相关联,但我不相信任何一个都有意义,因为嵌入操作是非线性的。

【问题讨论】:

    标签: machine-learning nlp artificial-intelligence text-classification fasttext


    【解决方案1】:

    在FastText中,句子嵌入基本上是词向量的平均值,如FastText papers之一所示:

    鉴于这一事实,零可能是合乎逻辑的选择。但是,答案取决于您想对嵌入做什么。

    如果您将它们用作分类器的输入,那么选择任意向量作为空字符串的表示应该没问题,分类器将了解这意味着什么。 FastText 还学习了</s> 的特殊嵌入,即句子的结尾。这是嵌入空字符串的另一个自然候选者,尤其是在进行相似性搜索时。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-03-05
      • 2021-07-04
      • 1970-01-01
      • 1970-01-01
      • 2019-07-25
      • 1970-01-01
      • 1970-01-01
      • 2021-04-04
      相关资源
      最近更新 更多