【问题标题】:Select only top n features from Tfidf Vectorizer仅从 Tfidf Vectorizer 中选择前 n 个特征
【发布时间】:2018-11-22 16:39:37
【问题描述】:
var_vector = TfidfVectorizer()
train_var = var_vector.fit_transform(t_df['var'])

top_100 = np.array(var_vector.get_feature_names())
tfidf_100 = np.argsort(var_vector.idf_)[::-1]

n = 100
top_n = top_100[tfidf_100][:n]

从 tfidf Vectorizer 中选择前 100 个单词后如何将维度更新为 100?

【问题讨论】:

    标签: python nltk tfidfvectorizer


    【解决方案1】:

    max_features 参数设置为100。 参考文档here

    【讨论】:

    • 它仅使用词频选择最大特征
    • 那么我认为您必须遍历所有内容并找到最重要的功能
    • 我只是想知道如何将顶级功能更新到以前的功能
    猜你喜欢
    • 2019-03-29
    • 2017-07-20
    • 2020-11-05
    • 2016-05-27
    • 2014-01-18
    • 2019-07-11
    • 2019-08-01
    • 2020-12-05
    • 2021-05-12
    相关资源
    最近更新 更多