【发布时间】:2018-03-25 12:22:00
【问题描述】:
我想在数据集 data.txt 上执行一些降维 (DR) 方法,例如 PCA、ICA 和 tSNE,也许 LEM 来比较这些方法。
因此,我需要将数据作为 numpy.ndarray 读取。 每行对应矩阵中的一行,分隔符 = ' '。
或者,我现在将文件作为一个 numpy.array 文件,但作为一个字符串:
[ '16.72083152\t12.91868366\t14.37818919\n' ... '16.9504402\t7.81951173\t12.81342726']
如何快速将其转换为所需格式的 numpy.array:n x 3,行分隔符 = ' ',每行元素之间的分隔符 = '\t' 将 '\n' 最后切掉?
非常感谢您的快速回答。其他提示也是如此。谢谢!
【问题讨论】:
-
我建议你看看 Pandas 库,它有许多用于解析文本数据文件和数据分析的工具,还有 scikit-learn,它具有更复杂的降维和聚类技术。跨度>
标签: python arrays file numpy delimiter