【问题标题】:How can i tokenize all rows in a specific column from a csv file using Python?如何使用 Python 标记 csv 文件中特定列中的所有行?
【发布时间】:2020-06-24 13:35:03
【问题描述】:

我正在使用 Python 进行情绪分析(我仍然是这种特定编程语言的新手)。我在 csv 文件中有一些 Twitter 数据,我需要在进行实际分析之前对其进行预处理。首先,我需要对特定列中的文本进行标记,在我的情况下是第二列或 col B。我发现了一些如何进行标记化但不选择特定列的建议。有这方面经验的人吗?

我尝试了这段代码,它似乎适用于所有列,但是如何将其隔离到第二列?

import csv
import nltk
from nltk import word_tokenize 

with open('TwitterData.csv', 'r') as csvfile:
   reader = csv.DictReader(csvfile)
   for row in reader:
       print(row)

对用于情感分析预处理的模块和代码有什么建议吗?

非常感谢!

【问题讨论】:

  • 您能否更具体地说明问题是什么?
  • 是的,当然 :) 在我的 csv 文件中,我有逗号分隔的列,第二列是我想要标记的推文(每行包含一条推文)。当我运行代码时,它会标记所有列,包括源、日期时间等(每条推文都在其他列中附加了其他相关数据——不过我不想标记它)。希望这更有意义? :)
  • @AMC 是不是更清楚了? :)

标签: python pycharm spyder tokenize sentiment-analysis


【解决方案1】:

我向您强烈推荐 scikit-learn 文档和模块,尤其是关于“处理文本数据”的部分:https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

他们还有一个关于情绪分析的部分:https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html#exercise-2-sentiment-analysis-on-movie-reviews

如果您在代码方面需要更具体的帮助,最好提供一个“最小可重现示例”:https://stackoverflow.com/help/minimal-reproducible-example 这样,其他人可以更好地帮助您解决您面临的特定问题。

希望对你有帮助:)

【讨论】:

  • 谢谢!我一定会尝试一下,看看它是否与我的情况有关:)
猜你喜欢
  • 2020-10-30
  • 1970-01-01
  • 1970-01-01
  • 2021-10-14
  • 1970-01-01
  • 1970-01-01
  • 2015-10-25
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多