【发布时间】:2021-03-07 09:10:41
【问题描述】:
我的 pandas 数据框 (df.tweet) 包含一个带有 德国推文 的列,我已经进行了数据清理并删除了我不需要的列。现在我想 word_tokenize 熊猫数据框中的推文。
使用 TextBlob 它仅适用于字符串,我只能按字符串标记数据帧字符串(请参见下面的代码)。我使用 textblob-de 因为它标记了德语文本。
是否有机会使用 for 循环对整个数据帧进行标记化?我是 Python 和 NLP 的新手,那时我真的很累。一些帮助会很棒!
这就是我所拥有的:
pip install -U textblob-de
from textblob_de import TextBlobDE as TextBlob
TextBlob(df.tweet [1]).words
【问题讨论】:
标签: python dataframe nlp tokenize textblob