【发布时间】:2014-05-25 06:46:13
【问题描述】:
我有多语言文本,其中包含翻译成多种语言的消息。 例如:
English message
Russian message
Ukrainian message
顺序不准确。 我想设计一种有监督/无监督的学习算法来自动进行分割,并提取每个翻译以创建一个并行的数据语料库。
您能推荐任何论文/方法吗? 我无法获得用于谷歌搜索的正确关键字。
【问题讨论】:
-
您能否详细说明您的目标和/或举个例子?我不确定我是否了解您要查找的内容。
-
给定一个包含 3 种语言消息的文件,我会得到 3 个包含相应语言消息的文件(称为 en、ru、ua)。在我看来,聚类算法可能会起作用。
标签: algorithm machine-learning nlp supervised-learning unsupervised-learning