【发布时间】:2018-03-28 15:09:53
【问题描述】:
我有一个简单的 sklearn 类,我想将其用作 sklearn 管道的一部分。这个类只需要一个 pandas 数据框 X_DF 和一个分类列名,并调用 pd.get_dummies 以返回数据框,该列变成了一个虚拟变量矩阵......
import pandas as pd
from sklearn.base import TransformerMixin, BaseEstimator
class dummy_var_encoder(TransformerMixin, BaseEstimator):
'''Convert selected categorical column to (set of) dummy variables
'''
def __init__(self, column_to_dummy='default_col_name'):
self.column = column_to_dummy
print self.column
def fit(self, X_DF, y=None):
return self
def transform(self, X_DF):
''' Update X_DF to have set of dummy-variables instead of orig column'''
# convert self-attribute to local var for ease of stepping through function
column = self.column
# add columns for new dummy vars, and drop original categorical column
dummy_matrix = pd.get_dummies(X_DF[column], prefix=column)
new_DF = pd.concat([X_DF[column], dummy_matrix], axis=1)
return new_DF
现在单独使用这个转换器来适应/转换,我得到了预期的输出。部分玩具数据如下:
from sklearn import datasets
# Load toy data
iris = datasets.load_iris()
X = pd.DataFrame(iris.data, columns = iris.feature_names)
y = pd.Series(iris.target, name='y')
# Create Arbitrary categorical features
X['category_1'] = pd.cut(X['sepal length (cm)'],
bins=3,
labels=['small', 'medium', 'large'])
X['category_2'] = pd.cut(X['sepal width (cm)'],
bins=3,
labels=['small', 'medium', 'large'])
...我的虚拟编码器产生正确的输出:
encoder = dummy_var_encoder(column_to_dummy = 'category_1')
encoder.fit(X)
encoder.transform(X).iloc[15:21,:]
category_1
category_1 category_1_small category_1_medium category_1_large
15 medium 0 1 0
16 small 1 0 0
17 small 1 0 0
18 medium 0 1 0
19 small 1 0 0
20 small 1 0 0
但是,当我从如下定义的 sklearn 管道中调用相同的转换器时:
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import KFold, GridSearchCV
# Define Pipeline
clf = LogisticRegression(penalty='l1')
pipeline_steps = [('dummy_vars', dummy_var_encoder()),
('clf', clf)
]
pipeline = Pipeline(pipeline_steps)
# Define hyperparams try for dummy-encoder and classifier
# Fit 4 models - try dummying category_1 vs category_2, and using l1 vs l2 penalty in log-reg
param_grid = {'dummy_vars__column_to_dummy': ['category_1', 'category_2'],
'clf__penalty': ['l1', 'l2']
}
# Define full model search process
cv_model_search = GridSearchCV(pipeline,
param_grid,
scoring='accuracy',
cv = KFold(),
refit=True,
verbose = 3)
一切都很好,直到我适合管道,此时我从虚拟编码器收到错误:
cv_model_search.fit(X,y=y)
在 [101] 中:cv_model_search.fit(X,y=y) 为 4 个中的每个拟合 3 个折叠 候选人,总共 12 次适合
无 无 无 无 [CV] dummy_vars__column_to_dummy=category_1, clf__penalty=l1 .........
Traceback(最近一次调用最后一次):
文件“”,第 1 行,在 cv_model_search.fit(X,y=y)
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/model_selection/_search.py”, 第 638 行,合适 cv.split(X, y, groups)))
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py”, 第 779 行,在 调用 而 self.dispatch_one_batch(iterator):
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py”, 第 625 行,在 dispatch_one_batch 中 self._dispatch(任务)
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py”, 第 588 行,在 _dispatch 中 job = self._backend.apply_async(batch, callback=cb)
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/_parallel_backends.py”, 第 111 行,在 apply_async 中 结果 = 立即结果(函数)
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/_parallel_backends.py”, 第 332 行,在 init 中 self.results = batch()
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py”, 第 131 行,在 调用 return [func(*args, **kwargs) for func, args, kwargs in self.items]
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/model_selection/_validation.py”, 第 437 行,在 _fit_and_score estimator.fit(X_train, y_train, **fit_params)
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py”, 第 257 行,合适 Xt, fit_params = self._fit(X, y, **fit_params)
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py”, 第 222 行,在 _fit **fit_params_steps[名称])
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/memory.py”, 第 362 行,在 调用 return self.func(*args, **kwargs)
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py”, 第 589 行,在 _fit_transform_one res = transformer.fit_transform(X, y, **fit_params)
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/base.py”, 第 521 行,在 fit_transform 中 return self.fit(X, y, **fit_params).transform(X)
文件“”,第 21 行,在转换中 dummy_matrix = pd.get_dummies(X_DF[column], prefix=column)
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/frame.py”, 第 1964 行,在 getitem 中 return self._getitem_column(key)
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/frame.py”, 第 1971 行,在 _getitem_column return self._get_item_cache(key)
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/generic.py”, 第 1645 行,在 _get_item_cache 中 values = self._data.get(item)
文件 “/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/internals.py”, 第 3599 行,在获取 raise ValueError("cannot label index with a null key")
ValueError: 不能用空键标记索引
【问题讨论】:
-
是的。那是因为,在管道内部(很可能是由于 gridSearchCV),X 的类型从 Dataframe 更改为没有任何索引或列的 numpy 数组。因此这样做会产生错误>
-
谢谢维韦克。我之前肯定使用过带有接受/返回熊猫数据帧的自定义转换器的 sklearn 管道,但仍在试图弄清楚为什么我的旧管道可以工作,而这个看似最小的示例却没有。我认为您可能对 gridSearchCV 的问题是正确的,我在上一个项目中使用了自定义 cv 迭代器...
标签: python pandas machine-learning scikit-learn pipeline