【问题标题】:Should the BLEU score for subword NMT be calculated on the subwords or should they be joined first?子词 NMT 的 BLEU 分数应该在子词上计算还是应该先加入?
【发布时间】:2020-04-26 05:18:21
【问题描述】:

这在我读过的论文中并不太清楚。当模型在被拆分为子词的双语语料库上进行训练时,例如通过 Byte-Pair Encoding,在重新加入子字后计算子字输出或完整字的 BLEU 分数是标准的吗?

【问题讨论】:

    标签: machine-learning nlp machine-translation bleu


    【解决方案1】:

    BLEU 分数总是在完整的标记上计算,否则,BLEU 分数将无法在具有不同分词的模型之间进行比较。即使是标记化的微小差异也会对最终得分产生很大影响。这在a recent paper 中得到了很好的解释,它引入了SacreBLEU,它现在被用作在学术论文中报告BLEU 分数的标准工具。

    在 BPE 子词而不是词上计算 BLEU 时,分数会人为地变高。即使翻译质量很低,模型通常也不会出现正确的单个单词的问题。通常情况下,它只会包含在 unigram 精度中,但随着单词被拆分为多个子词,它也会增加 bigram、trigram 甚至 4-gram 的精度。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-02-02
      • 2016-08-03
      • 1970-01-01
      • 2013-05-13
      • 2018-09-23
      • 2017-12-23
      • 2011-01-18
      • 1970-01-01
      相关资源
      最近更新 更多