【发布时间】:2023-04-11 10:07:01
【问题描述】:
我有一个标签文件,其中包含我需要在 mobydick 文件中找出其频率的单词,基本上我必须从标签中提取一个单词并在 mobydick 中搜索单词并打印该单词及其频率,我有完成了下面的程序,但我得到一个错误,因为我能够从标签中提取单词但无法在 mobydick 中检查相同的单词。我附上了颂歌和错误。如果有人可以提供帮助,那将有很大帮助。谢谢。
import pandas as pd
import numpy as np
import nltk, re, pprint
import string
from collections import Counter
from nltk.tokenize import sent_tokenize,word_tokenize
from urllib import request
with open('tags.txt','r') as f:
for line in f:
for word in line.split():
if word in open('MobyDick.txt').read():
c=Counter(word)
print(c)
错误是
UnicodeDecodeError Traceback(最近一次调用最后一次) 在 () 9 表示 f 中的行: 10 对于 line.split() 中的单词: ---> 11 如果单词在 open('MobyDick.txt').read(): 12 c=计数器(字) 13
解码中的C:\Users\Pratik\Anaconda3\lib\encodings\cp1252.py(self, input, final) 21类IncrementalDecoder(codecs.IncrementalDecoder): 22 def解码(自我,输入,最终=假): ---> 23 返回 codecs.charmap_decode(input,self.errors,decoding_table)[0] 24 25 类StreamWriter(Codec,codecs.StreamWriter):
UnicodeDecodeError:“charmap”编解码器无法解码位置 7237 中的字节 0x9d:字符映射到
【问题讨论】:
-
你昨天问了同样的问题。答案还是一样。
-
嗨,亚历克西斯,谢谢,只是我是这个平台的新手,所以对我来说这是一个很大的挑战,但如果你能帮助我知道可以计算频率的命令,那就太好了这个词,我使用的计数器是否正确?我认为 utf8 正在工作,感谢 francois。
-
由于您是该平台的新手,请花点时间浏览网站的帮助部分。它解释了如何提问,以及当你得到(或没有得到)答案时该怎么做。
-
附言。获得所需帮助后,请勿删除您的问题。
标签: python python-3.x python-textprocessing