【问题标题】:How to word_tokenize pandas dataframe如何 word_tokenize 熊猫数据框
【发布时间】:2021-03-07 09:10:41
【问题描述】:

我的 pandas 数据框 (df.tweet) 包含一个带有 德国推文 的列,我已经进行了数据清理并删除了我不需要的列。现在我想 word_tokenize 熊猫数据框中的推文。 使用 TextBlob 它仅适用于字符串,我只能按字符串标记数据帧字符串(请参见下面的代码)。我使用 textblob-de 因为它标记了德语文本。

是否有机会使用 for 循环对整个数据帧进行标记化?我是 Python 和 NLP 的新手,那时我真的很累。一些帮助会很棒!

这就是我所拥有的:

pip install -U textblob-de
from textblob_de import TextBlobDE as TextBlob
TextBlob(df.tweet [1]).words

【问题讨论】:

    标签: python dataframe nlp tokenize textblob


    【解决方案1】:

    这应该可行。但是,与 spaCy 或(尤其是)stanza 等其他方法相比,TextBlob/NLTK 在标记化方面并不是最出色的。我建议你使用这些。

    from textblob_de import TextBlobDE as TextBlob
    df["tweet_tok"] = df["tweet"].apply(lambda x: " ".join(TextBlob(x).words))
    

    【讨论】:

      猜你喜欢
      • 2021-11-09
      • 2018-02-28
      • 2021-06-02
      • 2020-06-03
      • 2021-10-27
      • 2017-10-29
      相关资源
      最近更新 更多