【发布时间】:2021-01-06 19:08:02
【问题描述】:
在使用来自 pytorch 的预训练 BERT 嵌入(然后对其进行微调)时,是否应该像在任何标准 NLP 任务中一样对输入模型的文本数据进行预处理?
例如,是否应该执行词干提取、去除低频词、去captilisation,或者是否应该将原始文本简单地传递给“transformers.BertTokenizer”?
【问题讨论】:
标签: nlp pytorch bert-language-model
在使用来自 pytorch 的预训练 BERT 嵌入(然后对其进行微调)时,是否应该像在任何标准 NLP 任务中一样对输入模型的文本数据进行预处理?
例如,是否应该执行词干提取、去除低频词、去captilisation,或者是否应该将原始文本简单地传递给“transformers.BertTokenizer”?
【问题讨论】:
标签: nlp pytorch bert-language-model
我认为预处理不会改变您的输出预测。我会尽量解释你提到的每一个案例-
【讨论】:
对于外壳部分,请查看pretrained models
根据他们的训练方式,输出中有带壳和不带壳的 BERT。
因此没有词干提取或词形还原或类似的 NLP 任务。
词形还原假设形态词分析返回一个词的基本形式,而词干提取通常是粗暴地删除词尾或词缀。
【讨论】:
在大多数情况下,提供原始文本可以正常工作。如果您想要更具体的答案,请分享您的用例的示例数据。
【讨论】: