【问题标题】:ValueError: Unknown label type: 'unknown'ValueError:未知标签类型:“未知”
【发布时间】:2018-01-02 22:23:33
【问题描述】:

我尝试运行以下代码。顺便说一句,我对 python 和 sklearn 都是新手。

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression


# data import and preparation
trainData = pd.read_csv('train.csv')
train = trainData.values
testData = pd.read_csv('test.csv')
test = testData.values
X = np.c_[train[:, 0], train[:, 2], train[:, 6:7],  train[:, 9]]
X = np.nan_to_num(X)
y = train[:, 1]
Xtest = np.c_[test[:, 0:1], test[:, 5:6],  test[:, 8]]
Xtest = np.nan_to_num(Xtest)


# model
lr = LogisticRegression()
lr.fit(X, y)

其中 y 是 0 和 1 的 np.ndarray

我收到以下信息:

文件“C:\Anaconda3\lib\site-packages\sklearn\linear_model\logistic.py”,行 >1174,适合 check_classification_targets(y)

文件“C:\Anaconda3\lib\site-packages\sklearn\utils\multiclass.py”,第 172 行,>在 check_classification_targets raise ValueError("未知标签类型:%r" % y_type)

ValueError:未知标签类型:'未知'

来自 sklearn 文档:http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression.fit

y : 类似数组,形状 (n_samples,) 目标值(分类中的类标签,回归中的实数)

我的错误是什么?

更新:

y 是数组([0.0, 1.0, 1.0, ..., 0.0, 1.0, 0.0], dtype=object) 大小是 (891,)

【问题讨论】:

  • 请提供数据和导入的一瞥。为什么要使用 numpy,也可以只按名称选择数据框的列。顺便说一句,为什么测试文件的结构与训练文件不同。这看起来很奇怪。
  • 如果scikit-learn 无法判断您要解决什么类型的问题(查看y 数据,它将返回二进制、多类、连续等),则会出现此错误。具体来说,您的y 中有什么类型的数据?在这里发布,或者正如@Quickbeam2k1 所说,如果发布完整数据的样本会更有帮助。
  • 我遇到了同样的问题,尽管使用了 numpy.arrays。我认为 y 数据是个问题,因为它们是 float 1.0。使用 lr.fit(X,y.astype(int)) 。我试过 lr.fit(X,y.astype(float)) 但我得到了同样的错误。我试图做一个高斯朴素贝叶斯模型

标签: python pandas numpy scikit-learn logistic-regression


【解决方案1】:

您的y 属于object 类型,因此sklearn 无法识别其类型。在行 y = train[:, 1] 之后添加行 y=y.astype('int')

【讨论】:

    【解决方案2】:

    添加到 Miriam,我也遇到了类似的错误,但在我的例子中,y_pred 的单个元素的类型为 'np.int32',而 y 的单个元素的类型为 'int'。 我通过这样做解决了它:

    for i,x in enumerate(y_pred):
        y_pred[i]=x.astype('int')
    

    【讨论】:

    • 在我的情况下,它是输入数据框中的分类列。将它们转换为 int 解决了这个问题。
    猜你喜欢
    • 2021-05-11
    • 2018-12-16
    • 2021-08-17
    • 2018-03-16
    • 2019-07-03
    • 2018-01-01
    • 2020-05-14
    • 2017-08-29
    • 2018-12-10
    相关资源
    最近更新 更多