如何 word_tokenize 熊猫数据框答案

【问题标题】：How to word_tokenize pandas dataframe如何 word_tokenize 熊猫数据框
【发布时间】：2021-03-07 09:10:41
【问题描述】：

我的 pandas 数据框 (df.tweet) 包含一个带有 德国推文 的列，我已经进行了数据清理并删除了我不需要的列。现在我想 word_tokenize 熊猫数据框中的推文。使用 TextBlob 它仅适用于字符串，我只能按字符串标记数据帧字符串（请参见下面的代码）。我使用 textblob-de 因为它标记了德语文本。

是否有机会使用 for 循环对整个数据帧进行标记化？我是 Python 和 NLP 的新手，那时我真的很累。一些帮助会很棒！

这就是我所拥有的：

pip install -U textblob-de
from textblob_de import TextBlobDE as TextBlob
TextBlob(df.tweet [1]).words

【问题讨论】：

标签： python dataframe nlp tokenize textblob

【解决方案1】：

这应该可行。但是，与 spaCy 或（尤其是）stanza 等其他方法相比，TextBlob/NLTK 在标记化方面并不是最出色的。我建议你使用这些。

from textblob_de import TextBlobDE as TextBlob
df["tweet_tok"] = df["tweet"].apply(lambda x: " ".join(TextBlob(x).words))

【讨论】：