【问题标题】:Tfidf VectorizerTfidf 矢量化器
【发布时间】:2020-05-07 05:41:03
【问题描述】:

我从文本评论中获取了一个用于预测情绪的数据集,最初,我清理了数据(去除标点符号、去除停用词、标记化)。当我尝试将标记化数据作为 TFIDF 矢量化器的输入时,我得到 AttributeError:'list' 对象没有属性'lower'。请帮助我克服这个错误。

TFIDF Vectorizer

2[]2:https://i.stack.imgur.com/VSsHu.png

【问题讨论】:

    标签: scikit-learn nlp tokenize tfidfvectorizer


    【解决方案1】:

    TF-IDF 向量化处理原始(即未标记化)文本并自行进行标记化。

    fit_transform 方法需要一个可迭代的字符串。应用 NLTK 标记器将评论字符串转换为字符串列表(标记列表)。

    如果您由于某种原因不信任 scikit-learn 中的内部分词器,您可以自定义分词器:

    tfidf = TfidfVectorizer(tokenizer=nltk.word_tokenize)
    

    【讨论】:

      猜你喜欢
      • 2018-06-04
      • 2017-12-11
      • 2019-06-09
      • 2021-01-23
      • 2018-06-17
      • 2021-02-03
      • 2018-07-02
      • 2015-04-08
      • 2017-05-03
      相关资源
      最近更新 更多