首页 文章

自定义Sklearn Transformer单独工作,在管道中使用时引发错误

提问于
浏览
4

我有一个简单的sklearn类,我想用作sklearn管道的一部分 . 这个类只需要一个pandas数据帧 X_DF 和一个分类列名,并调用 pd.get_dummies 来返回数据帧,并将该列转换为虚拟变量矩阵...

import pandas as pd
from sklearn.base import TransformerMixin, BaseEstimator

class dummy_var_encoder(TransformerMixin, BaseEstimator):
    '''Convert selected categorical column to (set of) dummy variables    
    '''


    def __init__(self, column_to_dummy='default_col_name'):
        self.column = column_to_dummy
        print self.column

    def fit(self, X_DF, y=None):
        return self 

    def transform(self, X_DF):
        ''' Update X_DF to have set of dummy-variables instead of orig column'''        

        # convert self-attribute to local var for ease of stepping through function
        column = self.column

        # add columns for new dummy vars, and drop original categorical column
        dummy_matrix = pd.get_dummies(X_DF[column], prefix=column)

        new_DF = pd.concat([X_DF[column], dummy_matrix], axis=1)

        return new_DF

现在使用这个变换器自己进行拟合/变换,我得到了预期的输出 . 对于一些玩具数据如下:

from sklearn import datasets
# Load toy data 
iris = datasets.load_iris()
X = pd.DataFrame(iris.data, columns = iris.feature_names)
y = pd.Series(iris.target, name='y')

# Create Arbitrary categorical features
X['category_1'] = pd.cut(X['sepal length (cm)'], 
                         bins=3, 
                         labels=['small', 'medium', 'large'])

X['category_2'] = pd.cut(X['sepal width (cm)'], 
                         bins=3, 
                         labels=['small', 'medium', 'large'])

...我的虚拟编码器产生正确的输出:

encoder = dummy_var_encoder(column_to_dummy = 'category_1')
encoder.fit(X)
encoder.transform(X).iloc[15:21,:]

category_1
   category_1  category_1_small  category_1_medium  category_1_large
15     medium                 0                  1                 0
16      small                 1                  0                 0
17      small                 1                  0                 0
18     medium                 0                  1                 0
19      small                 1                  0                 0
20      small                 1                  0                 0

但是,当我从如下定义的sklearn管道调用相同的变换器时:

from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import KFold, GridSearchCV

# Define Pipeline
clf = LogisticRegression(penalty='l1')
pipeline_steps = [('dummy_vars', dummy_var_encoder()),
                  ('clf', clf)
                  ]

pipeline = Pipeline(pipeline_steps)

# Define hyperparams try for dummy-encoder and classifier
# Fit 4 models - try dummying category_1 vs category_2, and using l1 vs l2 penalty in log-reg
param_grid = {'dummy_vars__column_to_dummy': ['category_1', 'category_2'],
              'clf__penalty': ['l1', 'l2']
                  }

# Define full model search process 
cv_model_search = GridSearchCV(pipeline, 
                               param_grid, 
                               scoring='accuracy', 
                               cv = KFold(),
                               refit=True,
                               verbose = 3)

一切顺利,直到我适应管道,此时我从虚拟编码器得到一个错误:

cv_model_search.fit(X,y=y)

在[101]中:cv_model_search.fit(X,y = y)为4个候选者中的每一个拟合3次,总共12次拟合无无无[CV] dummy_vars__column_to_dummy = category_1,clf__penalty = l1 ........ . 回溯(最近一次调用最后一次):文件“”,第1行,在cv_model_search.fit(X,y = y)文件“/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/ sklearn / model_selection / _search.py“,第638行,in fit cv.split(X,y,groups)))文件”/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn /externals/joblib/parallel.py“,第779行,调用时self.dispatch_one_batch(iterator):文件”/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/ joblib / parallel.py“,第625行,在dispatch_one_batch self._dispatch(tasks)文件”/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py “,第588行,_dispatch job = self._backend.apply_async(batch,callback = cb)文件”/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/extern als / joblib / _parallel_backends.py“,第111行,在apply_async结果= ImmediateResult(func)文件”/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/_parallel_backends .ie“,第332行,在init self.results = batch()文件”/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py“,第131行,在调用return [func(* args,** kwargs)for func,args,kwargs in self.items] file“/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/ sklearn / model_selection / _validation.py“,第437行,在_fit_and_score estimator.fit(X_train,y_train,** fit_params)文件”/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn /pipeline.py“,第257行,在拟合Xt中,fit_params = self._fit(X,y,** fit_params)文件”/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/ sklearn / pipeline.py“,第222行,在_fit ** fit_params_steps [name])文件”/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/memory .py“,第362行,在调用返回self.func(* args,** kwargs)文件”/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py“ ,第589行,在_fit_transform_one res = transformer.fit_transform(X,y,** fit_params)文件“/home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/base.py”,第521行,在fit_transform中返回self.fit(X,y,** fit_params).transform(X)文件“”,第21行,在变换dummy_matrix = pd.get_dummies(X_DF [column],prefix = column)文件“/ home / max / anaconda3 / envs / remine / lib / python2.7 / site-packages / pandas / core / frame.py“,第1964行,在getitem中返回self._getitem_column(key)文件”/ home / max / anaconda3 / envs / remine / lib / python2.7 / site-packages / pandas / core / frame.py“,第1971行,在_getitem_column中返回self._get_item_cache(key)文件”/ home / max / anaconda3 / envs / remine / lib / python2.7 / site-packages / pandas / core / generic.py“,第1645行,在_get_item_cache values = self._data.get(item)文件”/home/max/anaconda3/envs/remine/lib/python2.7 /站点包/熊猫/ core / internals.py“,第3599行,get get ValueError(”无法使用null键标记索引“)ValueError:无法使用null键标记索引

1 回答

  • 2

    跟踪告诉你究竟出了什么问题 . 学习诊断跟踪确实是非常宝贵的,特别是当你从图书馆继承你可能没有完全理解的时候 .

    现在,我已经在sklearn中做了很多继承,我可以毫无疑问地告诉你,如果输入到 fitfit_transform 方法的数据类型不是NumPy数组,那么 GridSearchCV 会给你一些麻烦 . 正如Vivek在他的评论中提到的,X传递给你的fit方法不再是DataFrame . 但是我们先来看一下这条线索 .

    ValueError:无法使用null键标记索引

    虽然Vivek对于NumPy阵列是正确的,但你还有另一个问题 . 您得到的实际错误是fit方法中 column 的值为None . 如果您要查看上面的 encoder 对象,您会看到 __repr__ 方法输出以下内容:

    dummy_var_encoder(column_to_dummy=None)
    

    当使用 Pipeline 时,此参数被初始化并传递给 GridSearchCV . 这种行为在整个交叉验证和搜索方法中都可以看到,并且具有输入参数中具有不同名称的属性会导致此类问题 . 修复此问题将使您走上正确的道路 .

    修改 __init__ 方法将解决此特定问题:

    def __init__(self, column='default_col_name'):
        self.column = column
        print(self.column)
    

    但是,一旦你完成了这个问题,Vivek提到的问题就会重新开始,你将不得不处理这个问题 . 这是我之前遇到过的事情,尽管不是专门针对DataFrames . 我在Use sklearn GridSearchCV on custom class whose fit method takes 3 arguments找到了一个解决方案 . 基本上我创建了一个实现 __getitem__ 方法的包装器,使得数据的外观和行为方式能够传递 GridSearchCVPipeline 和其他交叉验证方法中使用的验证方法 .

    编辑

    我做了这些更改,看起来你的问题来自验证方法check_array . 虽然使用 dtype=pd.DataFrame 调用此方法可行,但线性模型使用 dtype=np.float64 调用此错误 . 为了解决这个问题而不是将原始数据与你的假人连接,你可以返回你的虚拟列并使用它们 . 无论如何都应该这样做,因为您不希望在您尝试适合的模型中包含虚拟列和原始数据 . 您也可以考虑使用 drop_first 选项,但我已经离开了主题 . 因此,像这样更改 fit 方法可以使整个过程按预期工作 .

    def transform(self, X_DF):
        ''' Update X_DF to have set of dummy-variables instead of orig column'''        
    
        # convert self-attribute to local var for ease of stepping through function
        column = self.column
    
        # add columns for new dummy vars, and drop original categorical column
        dummy_matrix = pd.get_dummies(X_DF[column], prefix=column)
    
        return dummy_matrix
    

相关问题