【发布时间】:2021-12-13 18:30:01
【问题描述】:
我使用来自http://www.manythings.org/anki/ 的葡萄牙语-英语数据集训练了一个变形金刚。这是一个并行化的句子数据集。
训练结束后,我尝试将“doente”这个词翻译成“sick”,但结果却是“我感到恶心”。
关于我如何得到生病这个词的任何想法?
我是否使用错误的数据集训练我的模型?基于句子而不是基于单词?
提前通知
【问题讨论】:
标签: nlp translation
我使用来自http://www.manythings.org/anki/ 的葡萄牙语-英语数据集训练了一个变形金刚。这是一个并行化的句子数据集。
训练结束后,我尝试将“doente”这个词翻译成“sick”,但结果却是“我感到恶心”。
关于我如何得到生病这个词的任何想法?
我是否使用错误的数据集训练我的模型?基于句子而不是基于单词?
提前通知
【问题讨论】:
标签: nlp translation
机器翻译通常适用于句子,因为使用单词的上下文会改变其含义。逐字翻译没有意义。
所以会发生的是,你的词doente通常出现在英文翻译为I feel sick的句子中;那是最小的上下文。由于这些都只是机器的字符,因此从人类的角度来看,没有“理解”只有 sick 部分对应于 doente。
如果要翻译单词,请使用双语词典;我怀疑是否存在基于单词的模型,因为数十年的机器翻译研究表明,您需要更大的语言块来翻译,而不仅仅是单词。
【讨论】: