【发布时间】:2020-06-24 13:35:03
【问题描述】:
我正在使用 Python 进行情绪分析(我仍然是这种特定编程语言的新手)。我在 csv 文件中有一些 Twitter 数据,我需要在进行实际分析之前对其进行预处理。首先,我需要对特定列中的文本进行标记,在我的情况下是第二列或 col B。我发现了一些如何进行标记化但不选择特定列的建议。有这方面经验的人吗?
我尝试了这段代码,它似乎适用于所有列,但是如何将其隔离到第二列?
import csv
import nltk
from nltk import word_tokenize
with open('TwitterData.csv', 'r') as csvfile:
reader = csv.DictReader(csvfile)
for row in reader:
print(row)
对用于情感分析预处理的模块和代码有什么建议吗?
非常感谢!
【问题讨论】:
-
您能否更具体地说明问题是什么?
-
是的,当然 :) 在我的 csv 文件中,我有逗号分隔的列,第二列是我想要标记的推文(每行包含一条推文)。当我运行代码时,它会标记所有列,包括源、日期时间等(每条推文都在其他列中附加了其他相关数据——不过我不想标记它)。希望这更有意义? :)
-
@AMC 是不是更清楚了? :)
标签: python pycharm spyder tokenize sentiment-analysis