【问题标题】:loading libsvm text file in scikit在 scikit 中加载 libsvm 文本文件
【发布时间】:2014-03-06 17:45:55
【问题描述】:

我有一个名为“test.txt”的文本文件,其中包含 libsvm 格式的数据。 该文件中的数据表示如下:

165475 0:246870 1124384:2 342593:7 1141651:1 297582:1 1186846:1 17725:1 656602:1 
463304:1 766612:1 573309:1 290046:1 748198:1 216665:1 950594:2 909004:1 29008:1      
105623:1 5018:5 806027:1 1125729:1 757846:1 1023921:2 612980:1 120767:1 51340:1 
108172:5 674420:2

其中第一项代表标签,其余代表特征及其权重(由 : 分隔)。这是一个非常大的文件(每个标签都有很多特征和权重)。

我正在将 scikit 与 ipython notebook 一起使用,并希望将这些数据加载到 notebook 中以开始处理它。

有人能告诉我怎么做吗。提前谢谢。

【问题讨论】:

    标签: scipy ipython scikit-learn libsvm ipython-notebook


    【解决方案1】:

    使用来自sklearn.datasetsload_svmlight_file

    【讨论】:

    • 我试过这个 API x_learn,y_train=load_svmlight_file("/Users/riteshk/Desktop/project/sampletrain.rtf") 但它抛出 ValueError: could not convert string to float: {\rtf1\ansi \ansicpg1252\cocoartf1187\cocoasubrtf400
    • @riteshk 看起来您将该文件存储为 RTF 格式而不是文本。
    • okk..我尝试使用“TXT”格式。现在它给出了 ValueError: need more than 1 value to unpack... 但是,如果我减小特征向量的大小(即每个样本的特征总数),它工作正常。你能帮我解决这个问题吗? ?
    • @riteshk 请在问题中编辑完整的错误消息。我不是通灵者。
    猜你喜欢
    • 2013-07-10
    • 2012-06-02
    • 2016-03-17
    • 2012-10-27
    • 1970-01-01
    • 2017-05-21
    • 2012-11-15
    • 1970-01-01
    • 2019-05-06
    相关资源
    最近更新 更多