子词 NMT 的 BLEU 分数应该在子词上计算还是应该先加入？

【问题标题】：Should the BLEU score for subword NMT be calculated on the subwords or should they be joined first?子词 NMT 的 BLEU 分数应该在子词上计算还是应该先加入？
【发布时间】：2020-04-26 05:18:21
【问题描述】：

这在我读过的论文中并不太清楚。当模型在被拆分为子词的双语语料库上进行训练时，例如通过 Byte-Pair Encoding，在重新加入子字后计算子字输出或完整字的 BLEU 分数是标准的吗？

【问题讨论】：

标签： machine-learning nlp machine-translation bleu

【解决方案1】：

BLEU 分数总是在完整的标记上计算，否则，BLEU 分数将无法在具有不同分词的模型之间进行比较。即使是标记化的微小差异也会对最终得分产生很大影响。这在a recent paper 中得到了很好的解释，它引入了SacreBLEU，它现在被用作在学术论文中报告BLEU 分数的标准工具。

在 BPE 子词而不是词上计算 BLEU 时，分数会人为地变高。即使翻译质量很低，模型通常也不会出现正确的单个单词的问题。通常情况下，它只会包含在 unigram 精度中，但随着单词被拆分为多个子词，它也会增加 bigram、trigram 甚至 4-gram 的精度。

【讨论】：