-
10 votesanswersviews
使用GridSearchCV的随机森林 - param_grid出错
我试图用GridSearchCV创建一个随机森林模型,但我得到一个与param_grid有关的错误:"ValueError: Invalid parameter max_features for estimator Pipeline. Check the list of available parameters with `estimator.get_params().keys()&qu... -
1 votesanswersviews
在Pipeline上搜索网格后更新变换器参数
我有一个简单的管道,用于文本分析和分类,包括CountVectorizer,TfidfTransformer,最后是Multinomial Naive Bayes分类器 . from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer from sklearn.naive_bayes import Mul... -
-1 votesanswersviews
管道对象上的超参数调整
我有这条管道, pl = Pipeline([ ('union', FeatureUnion( transformer_list = [ ('numeric_features', Pipeline([ ("selector", get_numeric_data), ])), ... -
1 votesanswersviews
不同的roc_auc与XGBoost gridsearch评分= 'roc_auc'和roc_auc_score?
我使用GridSearch进行分类问题: # A parameter grid for XGBoost params = { 'min_child_weight': [1, 5, 10], 'gamma': [0.5, 1, 1.5, 2, 5], 'subsample': [0.6, 0.8, 1.0], 'colsample_by... -
0 votesanswersviews
sklearn,python中的网格搜索技术
我正在研究有监督的机器学习算法,它似乎有一种奇怪的行为 . 那么,让我开始吧: 我有一个函数,我传递不同的分类器,它们的参数,训练数据和它们的标签: def HT(targets,train_new, algorithm, parameters): #creating my scorer scorer=make_scorer(f1_score) #creating the grid search ... -
4 votesanswersviews
Doc2Vec的管道和GridSearch
我目前有以下脚本,有助于找到doc2vec模型的最佳模型 . 它的工作方式如下:首先根据给定的参数训练一些模型,然后针对分类器进行测试 . 最后,它输出最好的模型和分类器(我希望) . Data 示例数据(data.csv)可以在这里下载:https://pastebin.com/takYp6T8请注意,数据的结构应该是1.0精度的理想分类器 . Script import sys import ... -
37 votesanswersviews
交叉验证和网格搜索有什么区别?
简单来说,交叉验证和网格搜索有什么区别?网格搜索如何工作?我应该首先进行交叉验证然后进行网格搜索吗? -
1 votesanswersviews
sklearn GridSearchCV(评分函数错误)
我想知道你是否可以帮助我解决我在运行网格搜索时收到的错误 . 我认为这可能是由于对网格搜索实际如何工作的误解 . 我现在正在运行一个应用程序,我需要使用网格搜索来评估使用不同评分函数的最佳参数 . 我使用RandomForestClassifier将大X数据集拟合到特征向量Y,该特征向量Y是0和1的列表 . (完全二进制) . 我的评分函数(MCC)要求预测输入和实际输入完全是二进制的 . 但是... -
1 votesanswersviews
Python,机器学习 - 在自定义验证集上执行网格搜索
我正在处理一个不 balancer 的分类问题,我的负面课程比我的正面课程多1000倍 . 我的策略是在 balancer (50/50比率)训练集上训练深度神经网络(我有足够的模拟样本),然后使用不 balancer (1/1000比率)验证集来选择最佳模型并优化超参数 . 由于参数的数量很大,我想使用scikit-learn RandomizedSearchCV,即随机网格搜索 . 据我所知,... -
0 votesanswersviews
Scikit:使用GridSearchCV时,有没有办法从最佳估算器中取回所有未经训练的项目(测试集)?
在这个简化的例子中,我正在使用GridSearchCV训练Logistic回归 . 和往常一样,我希望模型能够很好地概括,所以我想仔细研究测试集的结果 . 使用GridSearchCV时,我找不到一种简单的方法 . lr_pipeline = Pipeline([('clf', LogisticRegression())]) lr_parameters = {'clf__fit_intercept... -
3 votesanswersviews
为什么在逻辑回归中对roc_auc进行评分时,GridSearchCV不会给出具有最高AUC的C.
如果这很明显,我是新来的,所以道歉 . lr = LogisticRegression(penalty = 'l1') parameters = {'C': [0.001, 0.01, 0.1, 1, 10, 100, 1000]} clf = GridSearchCV(lr, parameters, scoring='roc_auc', cv = 5) clf.fit(X, Y) print c... -
0 votesanswersviews
使用GridSearchCV进行逻辑回归
我正在试图找出如何使用GridSearchCV进行线性回归,但是我得到了一个令人讨厌的错误,如果这是一个估算器问题对GridSearchCV不正确或者如果这是我的“LogisticRegression”,我就不会得到设置不正确 . 我让它适用于随机森林和knn,但我坚持这个实现 . 我使用一个小数据集,这就是我想使用liblinear的原因(即使它是默认情况下,如文档中所述) . tuned_pa... -
0 votesanswersviews
GridsearchCV用于多项式回归
我是机器学习的新手并坚持这一点 . 当我试图在线性模型中实现多项式回归时,比如使用多个多项式范围(1,10)并得到不同的MSE . 我实际上使用 GridsearchCV 方法来找到多项式的最佳参数 . from sklearn.model_selection import GridSearchCV poly_grid = GridSearchCV(PolynomialRegression(),... -
2 votesanswersviews
缩放决策树中的数据会改变我的结果吗?
我知道决策树不会受到缩放数据的影响,但是当我在决策树中缩放数据时,它会给我带来糟糕的表现(糟糕的回忆,精确度和准确性) 但是当我不扩展所有性能指标时,决策树给了我一个惊人的结果 . 怎么会这样? 注意:我使用GridSearchCV,但我不认为交叉验证是我的问题的原因 . 这是我的代码: scaled = MinMaxScaler() pca = PCA() bestK = SelectKBe... -
0 votesanswersviews
通过GridSearchCV获取精确模型以进行召回优化
给定一个称为“m”的机器学习模型RBF SVC,我对gamma值执行了gridSearchCV,以优化召回 . 我想回答这个问题:“网格搜索应该找到最能优化回忆的模型 . 这个模型的召回比精度更好?” 所以我做了gridSearchCV: grid_values = {'gamma': [0.001, 0.01, 0.05, 0.1, 1, 10, 100]} grid_m_re = GridSe... -
10 votesanswersviews
Keras:进行超参数网格搜索时内存不足
我正在运行多个嵌套循环来进行超参数网格搜索 . 每个嵌套循环遍历超级参数值列表,并且在最内层循环内部,每次使用生成器构建和评估Keras顺序模型 . (我没有做任何训练,我只是随机初始化,然后多次评估模型,然后检索平均损失) . 我的问题是,在这个过程中,Keras似乎填满了我的GPU内存,所以我最终得到了一个OOM错误 . 在评估模型后,是否有人知道如何解决这个问题并释放GPU内存? 在评估之... -
2 votesanswersviews
Keras KerasClassifier gridsearch TypeError:无法pickle _thread.lock对象
以下代码抛出错误:TypeError:无法pickle _thread.lock对象 我可以看到它可能与将前一个方法作为def fit中的函数传递(self,c_m) . 但我认为这是正确的文件:https://keras.io/scikit-learn-api/ 如果有人在我的代码中看到错误,我可能会犯一个新手错误我会很感激帮助 . np.random.seed(7) y_dic = [] c... -
4 votesanswersviews
scikit-learn GridSearchCV中的sample_weight参数形状错误
将sample_weight参数传递给GridSearchCV会因形状不正确而引发错误 . 我怀疑交叉验证无法相应地使用数据集处理sample_weights的拆分 . 第一部分:使用sample_weight作为模型参数可以很好地工作 让我们考虑一个简单的例子,首先没有GridSearch: import pandas as pd import numpy as np from keras.mo... -
1 votesanswersviews
在Scikit-learn中使用Smote和Gridsearchcv
我正在处理不 balancer 的数据集,并希望使用scikit的gridsearchcv进行网格搜索来调整模型的参数 . 为了对数据进行过采样,我想使用SMOTE,我知道我可以将其作为管道的一个阶段包含在内并将其传递给gridsearchcv . 我担心的是,我认为smote将适用于训练和验证折叠,这不是你应该做的 . 验证集不应过采样 . 我是否正确,整个管道将应用于两个数据集拆分?如果是的话... -
17 votesanswersviews
sklearn估算器管道的参数无效
我正在使用Python 2.7和sklearn 0.16从O'Reilly的书“使用Python进行机器学习简介”中实现一个示例 . 我正在使用的代码: pipe = make_pipeline(TfidfVectorizer(), LogisticRegression()) param_grid = {"logisticregression_C": [0.001, 0.01,... -
1 votesanswersviews
使用KNeighborsClassifier的SKlearn管道
我正在尝试在sklearn中构建一个GridSearchCV管道,以使用KNeighborsClassifier和SVM . 到目前为止,已尝试过以下代码: from sklearn.model_selection import GridSearchCV from sklearn.pipeline import Pipeline from sklearn.neighbors import KNei... -
13 votesanswersviews
如何在scikit-learn中用管道调整自定义内核函数的参数
目前我已经使用def函数成功定义了一个自定义内核函数(预先计算内核矩阵),现在我使用GridSearchCV函数来获取最佳参数 . 因此,在自定义内核函数中,总共有2个参数将被调整(即下例中的gamm和sea_gamma),而且对于SVR模型,还必须调整cost c参数 . 但到目前为止,我可以使用GridSearchCV调整成本c参数 - >请参考下面的第一部分:示例 . 我搜索了一些类似... -
2 votesanswersviews
scikit-learn:为learning_curve,GridSearchCV等克隆预装的估算器
如何强制sklearn的GridSearchCV,learning_curve等深度复制基本估算器而不是克隆它? 更多信息: 我的自定义分类器在初始化期间将拟合的基本估计器作为参数 . 在拟合期间,它使用基本估计器来更快地学习(在域自适应的上下文中) . 例如,当我使用GridSearchCV()调整分类器的参数时,对于每个配置,分类器都是内部的clone() . 但是,clone()不会保留预先... -
3 votesanswersviews
如何访问Scikit了解嵌套的交叉验证分数
我正在使用python,我想使用scikit learn的嵌套交叉验证 . 我找到了一个非常好的example: NUM_TRIALS = 30 non_nested_scores = np.zeros(NUM_TRIALS) nested_scores = np.zeros(NUM_TRIALS) # Choose cross-validation techniques for the inne... -
2 votesanswersviews
Python:ValueError要解压的值太多(预期2)
我试图通过GridSearchCV找到最好的xgboost模型,并且作为cross_validation我想使用April目标数据 . 这是代码: x_train.head() x_train y_train.head() y_train from sklearn.model_selection import GridSearchCV from sklearn.model_select... -
2 votesanswersviews
如何让随机网格搜索更加冗长? (似乎已停止,但无法诊断)
我正在运行一个相对较大的工作,其中涉及对数据集进行随机网格搜索,该数据集(使用小的n_iter_search)已经花费很长时间 . 我'm running it on a 64 core machine, and for about 2 hours it kept 2000 threads active working on the first folds. It then stopped rep... -
1 votesanswersviews
GridSearchCV.best_score_表示评分设置为'accuracy'和CV时
我正在尝试找到应用于众所周知的威斯康星癌症数据集(569个样本,31个特征目标)的乳腺癌样本分类的最佳模型神经网络模型 . 我正在使用sklearn 0.18.1 . 到目前为止我还没有使用Normalization . 当我解决这个问题时,我会添加它 . # some init code omitted X_train, X_test, y_train, y_test = train_test_... -
1 votesanswersviews
通过网格搜索和sklearn中的管道获得正确的交叉验证分数
我的设置:我正在运行一个进程(=管道),在我选择相关变量之后运行回归(在标准化数据之后 - 我已经省略的步骤,因为它们在这个实例中是无关的),我将通过网格搜索进行优化,如下所示 fold = StratifiedShuffleSplit(n_splits=10, test_size=0.2, random_state=777) regression_estimator = LogisticRegr... -
2 votesanswersviews
如何在python中执行xgboost的网格搜索?
我有一些分类问题,我想使用xgboost . 我有以下内容: alg = xgb.XGBClassifier(objective='binary:logistic') 我正在测试它的日志丢失: cross_validation.cross_val_scoree(alg, train_cluster_x, train_cluster_y, cv=5, scoring='log_loss') 我试... -
1 votesanswersviews
使用预定义的验证集Sklearn执行网格搜索
之前已经多次询问过这个问题 . 但是在回答这个问题时我收到了一个错误 首先,我指定哪个部分是训练集和验证集如下 . my_test_fold = [] for i in range(len(train_x)): my_test_fold.append(-1) for i in range(len(test_x)): my_test_fold.append(0) 然后执行g...