【发布时间】:2019-12-01 01:06:03
【问题描述】:
我正在使用CountVectorizer() 创建一个词频矩阵。我想删除频率为两个或更少的词汇表中的所有术语。
然后我使用tfidfTransformer() 创建一个 ti*idf 矩阵
vectorizer=CountVectorizer()
X =vectorizer.fit_transform(docs)
matrix_terms = np.array(vectorizer.get_feature_names())
matrix_freq = np.asarray(X.sum(axis=0)).ravel()
tfidf_transformer=TfidfTransformer()
tfidf_matrix = tfidf_transformer.fit_transform(X)
然后我想使用 LSA 算法进行降维,并使用 k-means 进行聚类。但我想制作没有频率为两个或更少的术语的集群。 有人可以帮帮我吗?
【问题讨论】:
-
我们需要您的代码,可能还需要一些数据。请参阅:minimal reproducible example。
标签: python k-means dimensionality-reduction