bleu,Rouge一般在翻译里用

bleu

bltk工具箱中就有bleu的评估指标实现

bleu通过比较预测语句和参考语句里的n-gram(从1-gram到4-gram)的重合程度。显然,重合程度越高,译文的质量就高。1-gram主要是用于比较单个单词的准确率,而2~4-gram则用于衡量句子的流畅性。

这个评价指标,关心的是预测语句的准确率,而没有考虑到预测语句的缺失率。

即计算的时候,用预测语句的n-gram个数做分母

分子是相同gram的个数

ROUGE

rouge就只计算了预测语句的召回率。

在实际的神经网络机器翻译出的语句通常是比较流畅的,但有时会瞎翻译,

即计算的时候,用参考译文的n-gram个数做分母。

分子是相同gram的个数

参考:

https://blog.csdn.net/qq_25222361/article/details/78694617

https://www.zhihu.com/question/304798594/answer/567383628

相关文章:

  • 2021-06-03
  • 2022-12-23
  • 2021-10-29
  • 2022-12-23
  • 2021-11-29
  • 2021-09-20
猜你喜欢
  • 2021-10-28
  • 2021-07-07
  • 2022-01-04
  • 2021-10-15
  • 2021-09-24
  • 2021-08-08
  • 2021-12-19
相关资源
相似解决方案