在 scikit 中加载 libsvm 文本文件答案

【问题标题】：loading libsvm text file in scikit在 scikit 中加载 libsvm 文本文件
【发布时间】：2014-03-06 17:45:55
【问题描述】：

我有一个名为“test.txt”的文本文件，其中包含 libsvm 格式的数据。该文件中的数据表示如下：

165475 0:246870 1124384:2 342593:7 1141651:1 297582:1 1186846:1 17725:1 656602:1 
463304:1 766612:1 573309:1 290046:1 748198:1 216665:1 950594:2 909004:1 29008:1      
105623:1 5018:5 806027:1 1125729:1 757846:1 1023921:2 612980:1 120767:1 51340:1 
108172:5 674420:2

其中第一项代表标签，其余代表特征及其权重（由 : 分隔）。这是一个非常大的文件（每个标签都有很多特征和权重）。

我正在将 scikit 与 ipython notebook 一起使用，并希望将这些数据加载到 notebook 中以开始处理它。

有人能告诉我怎么做吗。提前谢谢。

【问题讨论】：

标签： scipy ipython scikit-learn libsvm ipython-notebook

【解决方案1】：

使用来自sklearn.datasets 的load_svmlight_file。

【讨论】：

我试过这个 API x_learn,y_train=load_svmlight_file("/Users/riteshk/Desktop/project/sampletrain.rtf") 但它抛出 ValueError: could not convert string to float: {\rtf1\ansi \ansicpg1252\cocoartf1187\cocoasubrtf400
@riteshk 看起来您将该文件存储为 RTF 格式而不是文本。
okk..我尝试使用“TXT”格式。现在它给出了 ValueError: need more than 1 value to unpack... 但是，如果我减小特征向量的大小（即每个样本的特征总数），它工作正常。你能帮我解决这个问题吗？ ?
@riteshk 请在问题中编辑完整的错误消息。我不是通灵者。