【问题标题】:Glove text pre-processing手套文本预处理
【发布时间】:2023-04-05 13:23:01
【问题描述】:

我注意到在技术方面,人们将文本 URL、数字和日期转换为 .手套数据集是否已针对这些占位符进行嵌入训练。我可以将它们直接输入数据集吗?

【问题讨论】:

    标签: nlp word2vec glove


    【解决方案1】:

    您可以在 word2vec/glove 培训课程中提供您想要 nito 的任何代币。

    但是,通常具有很多内部多样性但语义意义可能很少或分散的标记(或者每个单独变体的示例太少)被省略或合并为合成替换标记。

    例如,每个数字都可能变成'__NUM__'。 (或者,放到像'__1DIGITNUM__''__2DIGITNUM__' 等范围内的桶中)日期可能会变成'__DATE__'。 (或者,像'__1700s__''__1990s' 等一样分桶)

    任何特定的预训练模型可能做了什么,需要直接与模型的创建者核实,或者通过探测模型中的标记。您当然应该在您打算针对预训练向量集查找的任何实体/令牌上提供类似的规范化。

    所以,你的集做什么完全取决于你,如果你自己进行培训,或者取决于特定项目先前做出的决定,因此只能对特定项目/数据集/负责已识别代码库。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-06-01
      • 2011-03-22
      • 2019-06-28
      • 2015-10-07
      • 2011-08-03
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多