我有一个问题,即二元Logistic回归(使用scikit-learn python = 2.7)分类,它以高精度预测错误/相反的类 . 也就是说,在拟合模型之后,每个类的预测得分和预测概率非常一致但总是错误的类 . 我无法共享数据,但我的方法的一些伪代码是:

X = np.vstack((cond_1, cond_2))  # shape of X = 200*51102
y = np.concatenate([np.zeros(len(cond_1)), np.ones(len(cond_2)])

scls = []
clfs = []
scores = []

for train, test in cv.split(X, y):
    clf = LogisticRegression(C=1)
    scl = StandardScaler()
    scl.fit(X[train])
    X_train = scl.transform(X[train])
    scls.append(scl)
    X_test = scl.transform(X[test])
    clf.fit(X_train, y[train])
    y_pred = clf.predict(X_test)

    scores.append(roc_auc_score(y[test], y_pred))

roc_auc得分的平均值为0.065%,标准差为0.05%,因此似乎有所作为,但是什么?我已经绘制了特征,它们似乎正常分布 . 我还看看来自predict_proba的概率,对于错误的类/标签,它们大多数都在80%以上 .

有什么想法正在发生和/或如何正确诊断问题?

我为无法提出更准确的问题而道歉,但我缺乏词汇量 .