【发布时间】:2020-04-26 05:18:21
【问题描述】:
这在我读过的论文中并不太清楚。当模型在被拆分为子词的双语语料库上进行训练时,例如通过 Byte-Pair Encoding,在重新加入子字后计算子字输出或完整字的 BLEU 分数是标准的吗?
【问题讨论】:
标签: machine-learning nlp machine-translation bleu
这在我读过的论文中并不太清楚。当模型在被拆分为子词的双语语料库上进行训练时,例如通过 Byte-Pair Encoding,在重新加入子字后计算子字输出或完整字的 BLEU 分数是标准的吗?
【问题讨论】:
标签: machine-learning nlp machine-translation bleu
BLEU 分数总是在完整的标记上计算,否则,BLEU 分数将无法在具有不同分词的模型之间进行比较。即使是标记化的微小差异也会对最终得分产生很大影响。这在a recent paper 中得到了很好的解释,它引入了SacreBLEU,它现在被用作在学术论文中报告BLEU 分数的标准工具。
在 BPE 子词而不是词上计算 BLEU 时,分数会人为地变高。即使翻译质量很低,模型通常也不会出现正确的单个单词的问题。通常情况下,它只会包含在 unigram 精度中,但随着单词被拆分为多个子词,它也会增加 bigram、trigram 甚至 4-gram 的精度。
【讨论】: