【发布时间】:2013-07-18 16:29:29
【问题描述】:
我正在使用 WordPunct Tokenizer 来标记这句话:
في_benzo
我的代码是:
import re
import nltk
sentence= " في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.tokenize.wordpunct_tokenize(sentence)
print " ".join(wordsArray)
我注意到打印输出与输入句子相同,那么为什么要使用分词器呢? 另外,使用令牌文件或普通文本文件创建机器翻译系统 (MOSES) 会有什么不同吗?
【问题讨论】:
-
它正在打印输入,因为您将令牌重新组合在一起。当你想单独处理单词时,你会标记化。
-
您可能想要编辑此问题以强调问题的 MT 部分,如果这是最重要的部分,或者设置第二个问题来询问有关在 MT 中使用标记化文本与未标记化文本的一般情况.
标签: python nltk tokenize smt moses