【发布时间】:2023-03-23 07:40:01
【问题描述】:
我是 NLTK 新手,我正在使用 NLTK 3 Cookbook:第 4 章进行 Python 3 文本处理。我已经完成了“使用 WordNet 进行标记”,并且在默认语言英语中工作正常。我已将 Language Bahasa (zsm) 下载到 omw 并想使用其他数据集在 Bahasa 中尝试。使用相同的方法,我现在如何将默认语言从英语更改为 zsm?
我正在使用的代码:
class WordNetTagger(SequentialBackoffTagger):
def __init__(self, *args, **kwargs):
SequentialBackoffTagger.__init__(self, *args, **kwargs)
self.wordnet_tag_map = {
'n': 'NN',
's': 'JJ',
'a': 'JJ',
'r': 'RB',
'v': 'VB'
}
def choose_tag(self, tokens, index, history):
word = tokens[index]
fd = FreqDist()
for synset in wordnet.synsets(word):
fd[synset.pos()] += 1
if not fd: return None
return self.wordnet_tag_map.get(fd.max())
提前致谢。
【问题讨论】: