【发布时间】:2018-12-06 23:16:20
【问题描述】:
我正在尝试使用https://github.com/wwbp/facebook_topics/tree/master/csv 上的 2000 个主题的前 20 个频率数据
我想对数据执行随机 PCA。从文档来看,X 需要是类似数组的形状 (n_samples, n_features) 。
我已经用LDA_topics = pd.read_csv(r'2000topics.top20freqs.keys.csv', header=None, index_col=0, error_bad_lines=False) 导入了文件
但这不是下面一行的正确格式:
pca2 = sklearn.decomposition.RandomizedPCA(n_components=45)
pca2.fit(LDA_topics)
导致 ValueError: could not convert string to float: 'sonic'
有没有办法执行 PCA 并在之后保留特征标签而不仅仅是频率?
【问题讨论】: