【发布时间】:2014-10-24 18:04:22
【问题描述】:
您好,我正在尝试学习 NLTK。我也是 Python 新手。我正在尝试以下方法。
>>import nltk
>>nltk.pos_tag(nltk.word_tokenize("John lived in China"))
我收到以下错误消息
Traceback(最近一次调用最后一次):文件“”,第 1 行,in nltk.pos_tag(nltk.word_tokenize("John 住在加利福尼亚")) 文件 "C:\Python34\lib\site-packages\nltk\tag__init__.py",第 100 行, 在 pos_tag 中 tagger = load(_POS_TAGGER) 文件“C:\Python34\lib\site-packages\nltk\data.py”,第 779 行,加载中 resource_val = pickle.load(opened_resource) UnicodeDecodeError: 'ascii' codec can't decode byte 0xcb in position 0: ordinal not in 范围(128)
我已经下载了所有可用的模型(包括 maxent_treebank_pos_tagger)
默认系统编码为 UTF-8
>>sys.getdefaultencoding()
我打开了 data.py 文件,这是可用的内容。
774# Load the resource.
775 opened_resource = _open(resource_url)
776if format == 'raw':
777 resource_val = opened_resource.read()
778 elif format == 'pickle':
779 resource_val = pickle.load(opened_resource)
780 elif format == 'json':
781 import json
我在这里做错了什么?
【问题讨论】:
标签: python-3.x nltk