Tfidf 矢量化器

【问题标题】：Tfidf VectorizerTfidf 矢量化器
【发布时间】：2020-05-07 05:41:03
【问题描述】：

我从文本评论中获取了一个用于预测情绪的数据集，最初，我清理了数据（去除标点符号、去除停用词、标记化）。当我尝试将标记化数据作为 TFIDF 矢量化器的输入时，我得到 AttributeError：'list' 对象没有属性'lower'。请帮助我克服这个错误。

【问题讨论】：

【解决方案1】：

TF-IDF 向量化处理原始（即未标记化）文本并自行进行标记化。

fit_transform 方法需要一个可迭代的字符串。应用 NLTK 标记器将评论字符串转换为字符串列表（标记列表）。

如果您由于某种原因不信任 scikit-learn 中的内部分词器，您可以自定义分词器：

tfidf = TfidfVectorizer(tokenizer=nltk.word_tokenize)

【讨论】：