【发布时间】:2020-03-17 13:14:34
【问题描述】:
我目前正在使用 python 中的 nltk 进行情绪分析项目。我无法让我的脚本从我的 csv 中传递文本行来执行标记化。但是,如果我一次在一个条目中传递文本,它就可以正常工作。当我尝试传入整个 csv 时,我收到一个持久性错误:“TypeError:预期的字符串或类似字节的对象”。 这是我正在使用的打印数据框和 python 代码。解决这个问题的任何帮助都会很棒。
abstract
0 Allergic diseases are often triggered by envir...
1 omal lymphopoietin (TSLP) has important roles ...
2 of atrial premature beats, and a TSLP was high...
3 deposition may play an important role in the ...
4 ted by TsPLP was higher than that mediated by ...
5 nal Stat5 transcription factor in that TSLP st...
data = pd.read_csv('text.csv', sep=';', encoding = 'utf-8')
x = data.loc[:, 'abstract']
print(x.head())
tokens = nltk.word_tokenize(x)
print(tokens)
附加的是完整的堆栈跟踪错误。 编辑:打印声明
编辑:输出
【问题讨论】:
-
哪一行给你这个错误?
-
请使用完整的 Traceback 消息更新您的问题。
-
tokens = nltk.word_tokenize(x)是错误的原因。这里x是一个df。您必须在nltk.word_tokenize()函数中传递String。您可以做的一件事是,您可以遍历 x 并在nltk.word_tokenize()中传递每一行字符串 -
@0buz 抱歉应该澄清的是这一行:tokens = nltk.word_tokenize(x)
-
@quamrana 我已经更新了问题,并提供了指向完整堆栈跟踪错误的链接
标签: python nltk typeerror sentiment-analysis nltokenizer