二元分类（逻辑回归）以高精度预测错误标签-Java 学习之路

我有一个问题，即二元Logistic回归（使用scikit-learn python = 2.7）分类，它以高精度预测错误/相反的类 . 也就是说，在拟合模型之后，每个类的预测得分和预测概率非常一致但总是错误的类 . 我无法共享数据，但我的方法的一些伪代码是：

X = np.vstack((cond_1, cond_2))  # shape of X = 200*51102
y = np.concatenate([np.zeros(len(cond_1)), np.ones(len(cond_2)])

scls = []
clfs = []
scores = []

for train, test in cv.split(X, y):
    clf = LogisticRegression(C=1)
    scl = StandardScaler()
    scl.fit(X[train])
    X_train = scl.transform(X[train])
    scls.append(scl)
    X_test = scl.transform(X[test])
    clf.fit(X_train, y[train])
    y_pred = clf.predict(X_test)

    scores.append(roc_auc_score(y[test], y_pred))

roc_auc得分的平均值为0.065％，标准差为0.05％，因此似乎有所作为，但是什么？我已经绘制了特征，它们似乎正常分布 . 我还看看来自predict_proba的概率，对于错误的类/标签，它们大多数都在80％以上 .

有什么想法正在发生和/或如何正确诊断问题？

我为无法提出更准确的问题而道歉，但我缺乏词汇量 .

二元分类（逻辑回归）以高精度预测错误标签

相关问题