【发布时间】:2020-07-01 01:53:57
【问题描述】:
使用 fairseq-generate.py 和转换器架构,每次翻译都会产生一个像这样的部分:
Why is it rare to discover new marine mammal species?
S-0 Why is it rare to discover new marine mam@@ mal species ?
H-0 -0.0643349438905716 Pourquoi est-il rare de découvrir de nouvelles espèces de mammifères marins?
P-0 -0.0763 -0.1849 -0.0956 -0.0946 -0.0735 -0.1150 -0.1301 -0.0042 -0.0321 -0.0171 -0.0052 -0.0062 -0.0015
H 是假设以及平均对数似然; P 是每个标记位置的位置分数,包括句尾标记
我想知道是否可以合理地说 P 行中的低(绝对)数字意味着对该特定单词的更高信心?例如。 “Pourquoi”的-0.07是否意味着它比“est-il”的(-0.1849)更快乐?末尾的低 -0.0015 意味着它确实有信心句子应该在那里结束。
背景:我正在努力解决的问题是,我是否可以使用 H 数,或者以某种方式使用单个 P 数,来获得其翻译的置信度。我一直在根据 H 编号分析一些翻译,并没有注意到它与我对翻译质量的主观看法之间有太多的对应关系。但是我有一对我认为它特别差的地方-它错过了一些关键信息-最终的P值相对较高-0.6099和-0.3091(最终的P值是-0.11左右他们中的大多数人。)
【问题讨论】:
标签: python pytorch transformer