【发布时间】:2013-07-16 19:04:15
【问题描述】:
如何在波斯语中使用 NLTK 的功能?
例如:“索引”。当我使用'concordance'时,答案是'not match',但是我的文本中有concordance的参数。
输入非常简单。它包含“hello سلام”。当“concordance”的参数为“hello”时,答案是正确的,但是,如果是“سلام”,则答案是“不匹配”。预期的输出对我来说是“显示 1 个匹配项中的 1 个”。
import nltk
from urllib import urlopen
url = "file:///home/.../1.html"
raw = urlopen(url).read()
raw = nltk.clean_html(raw)
tokens = nltk.word_tokenize(raw)
tokens = tokens[:12]
text = nltk.Text(tokens)
print text.concordance('سلام')
【问题讨论】:
-
你能给出一个最小的代码示例和最小的输入示例,说明你尝试了什么以及你期望会发生什么?