【发布时间】:2019-05-29 19:53:50
【问题描述】:
我尝试对稀疏矩阵中的数据进行归一化(矩阵为 TF 格式)。 我有一个疑问,
使用sklearn.preprocessing.Normalizer 只是为了规范化我的矩阵是正确的吗?
归一化并使用TF矩阵进行聚类有意义吗?
我的矩阵是这样的:
(0, 0) 1
(7, 0) 1
(13, 0) 1
(31, 0) 4
(97, 0) 3
(99, 0) 1
我使用此代码,来自 sklearn API:
transformer = Normalizer().fit(sparse_matrix) # fit does nothing.
Normalizer(copy=True, norm='l2')
transformer.transform(sparse_matrix)
稀疏矩阵,就是我的TF矩阵。
输出是这个:
(0, 0) 0.04822428221704121
(0, 1) 0.04822428221704121
(0, 2) 0.04822428221704121
(0, 3) 0.14467284665112365
(0, 4) 0.04822428221704121
(0, 5) 0.04822428221704121
(0, 6) 0.09644856443408242
(0, 7) 0.19289712886816485
因为这是我第一次这样做,我不想犯错。在这些新数据上,我想应用聚类来查看标准化和 TF-IDF 之间的差异。 如果这个问题听起来很傻,请原谅,但我正在努力从零开始学习。
【问题讨论】:
标签: python scikit-learn cluster-analysis normalization k-means