【问题标题】:Custom Sklearn Transformer works alone, Throws Error When Used in Pipeline自定义 Sklearn Transformer 单独工作,在管道中使用时引发错误
【发布时间】:2018-03-28 15:09:53
【问题描述】:

我有一个简单的 sklearn 类,我想将其用作 sklearn 管道的一部分。这个类只需要一个 pandas 数据框 X_DF 和一个分类列名,并调用 pd.get_dummies 以返回数据框,该列变成了一个虚拟变量矩阵......

import pandas as pd
from sklearn.base import TransformerMixin, BaseEstimator

class dummy_var_encoder(TransformerMixin, BaseEstimator):
    '''Convert selected categorical column to (set of) dummy variables    
    '''


    def __init__(self, column_to_dummy='default_col_name'):
        self.column = column_to_dummy
        print self.column

    def fit(self, X_DF, y=None):
        return self 

    def transform(self, X_DF):
        ''' Update X_DF to have set of dummy-variables instead of orig column'''        

        # convert self-attribute to local var for ease of stepping through function
        column = self.column

        # add columns for new dummy vars, and drop original categorical column
        dummy_matrix = pd.get_dummies(X_DF[column], prefix=column)

        new_DF = pd.concat([X_DF[column], dummy_matrix], axis=1)

        return new_DF

现在单独使用这个转换器来适应/转换,我得到了预期的输出。部分玩具数据如下:

from sklearn import datasets
# Load toy data 
iris = datasets.load_iris()
X = pd.DataFrame(iris.data, columns = iris.feature_names)
y = pd.Series(iris.target, name='y')

# Create Arbitrary categorical features
X['category_1'] = pd.cut(X['sepal length (cm)'], 
                         bins=3, 
                         labels=['small', 'medium', 'large'])

X['category_2'] = pd.cut(X['sepal width (cm)'], 
                         bins=3, 
                         labels=['small', 'medium', 'large'])

...我的虚拟编码器产生正确的输出:

encoder = dummy_var_encoder(column_to_dummy = 'category_1')
encoder.fit(X)
encoder.transform(X).iloc[15:21,:]

category_1
   category_1  category_1_small  category_1_medium  category_1_large
15     medium                 0                  1                 0
16      small                 1                  0                 0
17      small                 1                  0                 0
18     medium                 0                  1                 0
19      small                 1                  0                 0
20      small                 1                  0                 0

但是,当我从如下定义的 sklearn 管道中调用相同的转换器时:

from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import KFold, GridSearchCV

# Define Pipeline
clf = LogisticRegression(penalty='l1')
pipeline_steps = [('dummy_vars', dummy_var_encoder()),
                  ('clf', clf)
                  ]

pipeline = Pipeline(pipeline_steps)

# Define hyperparams try for dummy-encoder and classifier
# Fit 4 models - try dummying category_1 vs category_2, and using l1 vs l2 penalty in log-reg
param_grid = {'dummy_vars__column_to_dummy': ['category_1', 'category_2'],
              'clf__penalty': ['l1', 'l2']
                  }

# Define full model search process 
cv_model_search = GridSearchCV(pipeline, 
                               param_grid, 
                               scoring='accuracy', 
                               cv = KFold(),
                               refit=True,
                               verbose = 3) 

一切都很好,直到我适合管道,此时我从虚拟编码器收到错误:

cv_model_search.fit(X,y=y)

在 [101] 中:cv_model_search.fit(X,y=y) 为 4 个中的每个拟合 3 个折叠 候选人,总共 12 次适合

无 无 无 无 [CV] dummy_vars__column_to_dummy=category_1, clf__penalty=l1 .........

Traceback(最近一次调用最后一次):

文件“”,第 1 行,在 cv_model_search.fit(X,y=y)

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/model_selection/_search.py​​”, 第 638 行,合适 cv.split(X, y, groups)))

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py”, 第 779 行,在 调用 而 self.dispatch_one_batch(iterator):

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py”, 第 625 行,在 dispatch_one_batch 中 self._dispatch(任务)

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py”, 第 588 行,在 _dispatch 中 job = self._backend.apply_async(batch, callback=cb)

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/_parallel_backends.py”, 第 111 行,在 apply_async 中 结果 = 立即结果(函数)

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/_parallel_backends.py”, 第 332 行,在 init 中 self.results = batch()

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py”, 第 131 行,在 调用 return [func(*args, **kwargs) for func, args, kwargs in self.items]

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/model_selection/_validation.py”, 第 437 行,在 _fit_and_score estimator.fit(X_train, y_train, **fit_params)

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py”, 第 257 行,合适 Xt, fit_params = self._fit(X, y, **fit_params)

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py”, 第 222 行,在 _fit **fit_params_steps[名称])

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/memory.py”, 第 362 行,在 调用 return self.func(*args, **kwargs)

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py”, 第 589 行,在 _fit_transform_one res = transformer.fit_transform(X, y, **fit_params)

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/base.py”, 第 521 行,在 fit_transform 中 return self.fit(X, y, **fit_params).transform(X)

文件“”,第 21 行,在转换中 dummy_matrix = pd.get_dummies(X_DF[column], prefix=column)

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/frame.py”, 第 1964 行,在 getitem 中 return self._getitem_column(key)

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/frame.py”, 第 1971 行,在 _getitem_column return self._get_item_cache(key)

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/generic.py”, 第 1645 行,在 _get_item_cache 中 values = self._data.get(item)

文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/internals.py”, 第 3599 行,在获取 raise ValueError("cannot label index with a null key")

ValueError: 不能用空键标记索引

【问题讨论】:

  • 是的。那是因为,在管道内部(很可能是由于 gridSearchCV),X 的类型从 Dataframe 更改为没有任何索引或列的 numpy 数组。因此这样做会产生错误>
  • 谢谢维韦克。我之前肯定使用过带有接受/返回熊猫数据帧的自定义转换器的 sklearn 管道,但仍在试图弄清楚为什么我的旧管道可以工作,而这个看似最小的示例却没有。我认为您可能对 gridSearchCV 的问题是正确的,我在上一个项目中使用了自定义 cv 迭代器...

标签: python pandas machine-learning scikit-learn pipeline


【解决方案1】:

跟踪准确地告诉您出了什么问题。学习诊断跟踪确实非常宝贵,尤其是当您从您可能不完全了解的库中继承时。

现在,我自己在 sklearn 中进行了相当多的继承,我可以毫无疑问地告诉你,GridSearchCV 会给你带来一些麻烦,如果数据类型输入到你的fitfit_transform 方法中不是 NumPy 数组。正如 Vivek 在他的评论中提到的那样,传递给 fit 方法的 X 不再是 DataFrame。但是我们先来看看trace。

ValueError: 不能用空键标记索引

虽然 Vivek 关于 NumPy 数组是正确的,但这里还有另一个问题。您得到的实际错误是您的 fit 方法中 column 的值是 None。如果您查看上面的 encoder 对象,您会看到 __repr__ 方法输出以下内容:

dummy_var_encoder(column_to_dummy=None)

使用Pipeline 时,此参数将被初始化并传递给GridSearchCV。这种行为也可以在交叉验证和搜索方法中看到,并且具有与输入参数不同名称的属性会导致此类问题。解决这个问题会让你走上正确的道路。

这样修改__init__ 方法将解决这个特定问题:

def __init__(self, column='default_col_name'):
    self.column = column
    print(self.column)

但是,一旦您完成此操作,Vivek 提到的问题就会引起注意,您将不得不处理它。这是我之前遇到过的问题,虽然不是专门针对 DataFrames。我在Use sklearn GridSearchCV on custom class whose fit method takes 3 arguments 中提出了一个解决方案。基本上,我创建了一个包装器,它实现了__getitem__ 方法,使数据的外观和行为能够通过GridSearchCVPipeline 和其他交叉验证方法中使用的验证方法。

编辑

我做了这些更改,看起来您的问题来自验证方法check_array。虽然使用dtype=pd.DataFrame 调用此方法会起作用,但线性模型使用dtype=np.float64 调用此方法会引发错误。为了解决这个问题,而不是将原始数据与您的假人连接起来,您可以只返回您的虚拟列并使用它们进行拟合。这是无论如何都应该做的事情,因为您不想在您尝试拟合的模型中同时包含虚拟列和原始数据。您也可以考虑使用drop_first 选项,但我要跑题了。因此,像这样更改您的 fit 方法可以让整个过程按预期工作。

def transform(self, X_DF):
    ''' Update X_DF to have set of dummy-variables instead of orig column'''        

    # convert self-attribute to local var for ease of stepping through function
    column = self.column

    # add columns for new dummy vars, and drop original categorical column
    dummy_matrix = pd.get_dummies(X_DF[column], prefix=column)

    return dummy_matrix

【讨论】:

  • 感谢您。我知道__init__ 的问题,但不明白,还是不要说实话。该问题在我发布的打印输出中可见:单独调用编码器,__init__ 中的print.fit(X).transform(X).iloc[] 输出数据帧上方打印category_1。但在管道中,从__init__ 打印出来的东西是None。但我仍然很困惑为什么 - 当且仅当该类的 __init__ 函数采用 column 参数时,我才能在类中设置 self.column 属性?我以为你可以随时设置任何你想要的 self 属性?
  • 原因都可以追溯到baseEstimator中的_get_param_names。基本上,它不是获取实际属性,而是在 init 方法中找到参数的名称并从那里开始。后来它在属性中查找这些名称,但显然找不到它们,因此将值设置为 None。
猜你喜欢
  • 2020-03-28
  • 2021-12-20
  • 2020-08-04
  • 2019-10-26
  • 1970-01-01
  • 2018-01-01
  • 1970-01-01
  • 2015-10-29
  • 2020-11-30
相关资源
最近更新 更多