【发布时间】:2023-04-05 13:23:01
【问题描述】:
我注意到在技术方面,人们将文本 URL、数字和日期转换为 .手套数据集是否已针对这些占位符进行嵌入训练。我可以将它们直接输入数据集吗?
【问题讨论】:
我注意到在技术方面,人们将文本 URL、数字和日期转换为 .手套数据集是否已针对这些占位符进行嵌入训练。我可以将它们直接输入数据集吗?
【问题讨论】:
您可以在 word2vec/glove 培训课程中提供您想要 nito 的任何代币。
但是,通常具有很多内部多样性但语义意义可能很少或分散的标记(或者每个单独变体的示例太少)被省略或合并为合成替换标记。
例如,每个数字都可能变成'__NUM__'。 (或者,放到像'__1DIGITNUM__'、'__2DIGITNUM__' 等范围内的桶中)日期可能会变成'__DATE__'。 (或者,像'__1700s__'、'__1990s' 等一样分桶)
任何特定的预训练模型可能做了什么,需要直接与模型的创建者核实,或者通过探测模型中的标记。您当然应该在您打算针对预训练向量集查找的任何实体/令牌上提供类似的规范化。
所以,你的集做什么完全取决于你,如果你自己进行培训,或者取决于特定项目先前做出的决定,因此只能对特定项目/数据集/负责已识别代码库。
【讨论】: