使用GridSearchCV进行逻辑回归-Java 学习之路

我正在试图找出如何使用GridSearchCV进行线性回归，但是我得到了一个令人讨厌的错误，如果这是一个估算器问题对GridSearchCV不正确或者如果这是我的“LogisticRegression”，我就不会得到设置不正确 . 我让它适用于随机森林和knn，但我坚持这个实现 .

我使用一个小数据集，这就是我想使用liblinear的原因（即使它是默认情况下，如文档中所述） .

tuned_parameters = {'C': [0.1, 0.5, 1, 5, 10, 50, 100]}
clf = GridSearchCV(LogisticRegression(solver='liblinear'), tuned_parameters, cv=5, scoring="accuracy")
clf.fit(X_train, y_train)

和错误：

StratifiedShuffleSplit(n_splits=1, random_state=0, test_size=0.4,
            train_size=None)

Traceback (most recent call last):

  File "linearRegression.py", line 105, in <module>
    clf.fit(X_train, y_train)

  File "/usr/local/lib/python2.7/dist-packages/sklearn/model_selection/_search.py", line 945, in fit
    return self._fit(X, y, groups, ParameterGrid(self.param_grid))

  File "/usr/local/lib/python2.7/dist-packages/sklearn/model_selection/_search.py", line 564, in _fit
    for parameters in parameter_iterable

  File "/usr/local/lib/python2.7/dist-packages/sklearn/externals/joblib/parallel.py", line 758, in __call__
    while self.dispatch_one_batch(iterator):

  File "/usr/local/lib/python2.7/dist-packages/sklearn/externals/joblib/parallel.py", line 608, in dispatch_one_batch
    self._dispatch(tasks)

  File "/usr/local/lib/python2.7/dist-packages/sklearn/externals/joblib/parallel.py", line 571, in _dispatch
    job = self._backend.apply_async(batch, callback=cb)

  File "/usr/local/lib/python2.7/dist-packages/sklearn/externals/joblib/_parallel_backends.py", line 109, in apply_async

result = ImmediateResult(func)

  File "/usr/local/lib/python2.7/dist-packages/sklearn/externals/joblib/_parallel_backends.py", line 326, in __init__

self.results = batch()

  File "/usr/local/lib/python2.7/dist-packages/sklearn/externals/joblib/parallel.py", line 131, in __call__

return [func(*args, **kwargs) for func, args, kwargs in self.items]

  File "/usr/local/lib/python2.7/dist-packages/sklearn/model_selection/_validation.py", line 260, in _fit_and_score

test_score = _score(estimator, X_test, y_test, scorer)

  File "/usr/local/lib/python2.7/dist-packages/sklearn/model_selection/_validation.py", line 288, in _score

score = scorer(estimator, X_test, y_test)

  File "/usr/local/lib/python2.7/dist-packages/sklearn/metrics/scorer.py", line 91, in __call__

y_pred = estimator.predict(X)

  File "/usr/local/lib/python2.7/dist-packages/sklearn/linear_model/base.py", line 336, in predict

scores = self.decision_function(X)

  File "/usr/local/lib/python2.7/dist-packages/sklearn/linear_model/base.py", line 320, in decision_function

dense_output=True) + self.intercept_

  File "/usr/local/lib/python2.7/dist-packages/sklearn/utils/extmath.py", line 189, in safe_sparse_dot

return fast_dot(a, b)

TypeError: Cannot cast array data from dtype([('f0', 'f8'), ('f1','f8')]) to dtype('float64') according to the rule 'safe'

我阅读了文档：http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

和

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV

谢谢你的帮助 .

编辑：X和Y的形状：

X = np.array（Xlist，np.dtype（'float，float'））＃ - >两个浮点数作为特征y = np.array（ylist，np.dtype（'int'））＃ - >标签0或1

例如：X_train是

[[（0.0,0.0）（3.85,0.0）] [（3.6,0.0）（2.45,0.0）] [（1.1,0.0）（1.35,0.0）] [（3.7,0.0）（1.85,0.0）] ]

Y_train是

[1 0 0 0 1 0 1 1]

2 回答

可能是你输入X数据集作为元组列表：（A，B），而不是数组列表：[A，B]？

我能够使用scikit-learn == 0.18.1运行以下代码：

## Libraries
from sklearn.model_selection import train_test_split 
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression

X = [[0.0, 0.0], [3.85, 0.0], [3.6, 0.0], [2.45, 0.0], [1.1, 0.0], [1.35, 0.0], [3.7, 0.0], [1.85, 0.0]]
y = [1, 0, 0, 0, 1, 0, 1, 1]

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.33, random_state=42)

tuned_parameters = {'C': [0.1, 0.5, 1, 5, 10, 50, 100]}
clf = GridSearchCV(LogisticRegression(solver='liblinear'), tuned_parameters, cv=3, scoring="accuracy")
clf.fit(X_train, y_train)

注意：我不得不减少GridSearchCV的cv属性，因为没有足够大的数据集分为5个部分 .

回复于 2024-04-28T12:10:54+08:00

0
好吧，我的一个朋友解决了它：

我用的是：
```
X = np.array(Xlist,np.dtype('float,float'))
y = np.array(ylist,np.dtype('int'))
```
即使它正在使用这些分类器，它也无法很好地使用此估算器：

SVC（kernel ='rbf'），SVC（kernel ='linear'），SVC（kernel ='poly'），NeighborsClassifier（），DecisionTreeClassifier（），RandomForestClassifier（）

所以我只是将这两行替换为：
```
X = np.asarray(Xlist)
y = np.asarray(ylist)
```
回复于 2024-04-28T12:10:54+08:00

使用GridSearchCV进行逻辑回归

2 回答

相关问题