Python NLTK 中标记化文本和普通文本之间的区别答案

【问题标题】：Difference between tokenized and normal text in Python NLTKPython NLTK 中标记化文本和普通文本之间的区别
【发布时间】：2013-07-18 16:29:29
【问题描述】：

我正在使用 WordPunct Tokenizer 来标记这句话：

في_benzo

我的代码是：

import re
import nltk
sentence= " في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.tokenize.wordpunct_tokenize(sentence)
print " ".join(wordsArray)

我注意到打印输出与输入句子相同，那么为什么要使用分词器呢？另外，使用令牌文件或普通文本文件创建机器翻译系统 (MOSES) 会有什么不同吗？

【问题讨论】：

它正在打印输入，因为您将令牌重新组合在一起。当你想单独处理单词时，你会标记化。
您可能想要编辑此问题以强调问题的 MT 部分，如果这是最重要的部分，或者设置第二个问题来询问有关在 MT 中使用标记化文本与未标记化文本的一般情况.

标签： python nltk tokenize smt moses

【解决方案1】：

标记器的输出是标记列表 (wordsArray)。您所做的是使用以下命令再次将列表中的标记加入一个字符串：

print " ".join(wordsArray)

将其替换为：

print wordsArray

关于 MOSES 的第二个问题不清楚，请尽量具体一点。

【讨论】：