-
-1 votesanswersviews
使用sklearn进行线性回归交叉验证模型训练
我是python sklearn的新手 . 我理解交叉验证的基础 . 如果我默认将数据拆分为3倍 . sklearn将使用不同的训练和测试数据集训练模型3次 . 我假设它产生3个不同的模型,我的意思是不同的w ^和d ^ . 这是正确的吗?我应该回来一个型号吗?如果我使用model.predict()来预测输入,我正在使用哪个模型? -
1 votesanswersviews
使用交叉验证的KNN分类器
我正在尝试使用交叉验证方法来实现KNN分类器,其中我具有用于训练的特定字符的不同图像(例如,5个图像),并且另外两个用于测试 . 现在我通过在训练时选择具有最小误差值的K然后将其与测试数据一起使用来查找交叉验证的想法来查找我的结果的准确度 . 我的问题是如何在matlab中训练图像以获得我的K值?我是否比较它们并试图找到不匹配或什么?! 任何帮助将非常感激 . -
1 votesanswersviews
使用matlab中的交叉验证Knn分类器模型预测新数据集(测试数据)的标签
我有一个训练数据集(50000 X 16)和测试数据集(5000 X 16)[两个数据集中的第16列是决策标签或响应 . 测试数据集中的决策标签用于检查训练分类器的分类准确度] . 我正在使用我的训练数据进行训练和验证我的交叉验证的knn分类器 . 我使用以下代码创建了一个交叉验证的knn分类器模型: X = Dataset2(1:50000,:); % Use some data for fit... -
1 votesanswersviews
Scikit学习GridSearchCV AUC性能
我正在使用GridSearchCV来识别随机森林分类器的最佳参数集 . PARAMS = { 'max_depth': [8,None], 'n_estimators': [500,1000] } rf = RandomForestClassifier() clf = grid_search.GridSearchCV(estimator=rf, param_grid=PARAMS,... -
1 votesanswersviews
为什么交叉验证RF分类比没有交叉验证更糟糕?
我很困惑为什么没有交叉验证的随机森林分类模型得到的平均准确度得分为.996,但是交叉验证的5倍,模型的平均准确度得分为.687 . 共有275,956个样本 . 0级= 217891,1级= 6073,2级= 51992 我试图预测“TARGET”列,这是3个类[0,1,2]: data.head() bottom_temperature bottom_humidity top_tempera... -
3 votesanswersviews
使用交叉验证和F1分数选择SVM参数
我需要在SVM中调整C&Sigma时跟踪F1分数,例如以下代码跟踪准确度,我需要将其更改为F1-Score但我无法做到...... %# read some training data [labels,data] = libsvmread('./heart_scale'); %# grid of parameters folds = 5; [C,gamma] = meshgrid(-5:2:15... -
1 votesanswersviews
SVM的参数选择
我有一个数据集,我在Matlab中使用libSVM进行分类 . 数据集由4个类组成 . 对于SVM的参数选择,我可以进行嵌套交叉验证 . 问题是我最终还需要最佳参数的值 . 在完成嵌套交叉验证并具有最终精度后,我想要最佳参数的值 . 然后,我将为每个类(一对一)训练一个SVM,其中最佳参数用于选择最重要的特征(根据最高权重),即特征重要性图 . 我怎样才能做到这一点?我是否应该不进行嵌套交叉验证并... -
0 votesanswersviews
SVM - 是否有可以指示最佳参数的数据属性(例如C,gamma)
使用交叉验证来确定最佳参数似乎很标准 . 当然,这通常是一个耗时的过程 . 有快捷方式吗?是否有其他更快速的探索性分析形式可以提供哪些值最佳的提示? 例如,根据我目前对机器学习和SVM的理解,我可能会做一些事情,例如在[10e-5,10e5]范围内以C的指数执行初始网格搜索,然后从那里进行微调 . 但有没有办法可以快速估算出最佳C介于10e3和10e5之间,然后执行更具体的搜索? 这个问题可能适用... -
1 votesanswersviews
如何使用LIBSVM进行交叉验证的平台缩放?
有人能举例说明在libsvm中多层SVM分类中如何使用平台缩放以及k折叠交叉验证吗? 我将整个数据集分为两部分:培训和测试 . 对于交叉验证,我正在对训练数据进行分区,使得1个分区用于测试,其余用于训练多类SVM分类器 . -
4 votesanswersviews
LIBSVM过度拟合
在进行了10次交叉验证后,我训练了两个svms(LIBSVM)和15451个样本,并找到了gamma和C(RBF内核)的最佳参数值 . 在一个svm中,我只使用了1个特征,而在第二个中使用了另一个特征(以查看这个附加是否正在改进预测) . 在CV之后,我的准确度为75%(具有一个特征的SVM)和77%(具有该额外一个的SVM) . 在另外15451个实例上测试后,我的准确率分别为70%和72% .... -
2 votesanswersviews
如何在matlab中随机分割数据为k-folds?
我有一个数据集,为简单起见,我们说它有1000个样本(每个都是一个向量) . 我想分割我的数据用于交叉验证,用于训练和测试,例如,如果我想要4倍交叉验证,我应该得到: fold1 :train = 1:250; test = 251:1000fold2 :train = 251:500,test = [1:250; 501:1000]fold3 :train = 501:750,test = [1... -
0 votesanswersviews
如何在MATLAB中手动分配列车和测试数据的索引?
函数“cvpartition”随机选择列车的数据子集,其余部分用于K-Fold交叉验证中的测试 . 但是,无法更改已定义的cvpartition对象中每个数据分区的索引 . 我想知道这里是否有人知道如何做到这一点 . 例如,如果我们有一个包含300个样本(观察值)的数据集,则以下代码为训练和测试数据生成10个随机不同的分区 . CVO = cvpartition(300,'k',10) 现在,如... -
0 votesanswersviews
使用CVpartition MATLAB将单元阵列拆分为训练和测试
我希望你做得很好 . 我正在使用MATLAB . 我有一个包含我的数据的csv文件 . 我读取文件并将其转换为单元格数组 . 现在我需要将该数组中的行分区为训练和测试以进一步分类 . 我已经在单元格数组上直接尝试了cvpartion,但它一直在 "Grouping variable must be a vector or a character array “ 如果您有关于如何将行划分为... -
0 votesanswersviews
如何以两个列表的形式测试和训练多个数据集?
我想在两个列表中创建一个训练和测试10个独立数据集的函数 . 以下是列表: blend_30_d<-list(desktop_30_1, desktop_30_2, desktop_30_3, desktop_30_4, desktop_30_5, desktop_30_6, desktop_30_7, desktop_30_8, desktop_30_9, desktop_30_10) ... -
3 votesanswersviews
在scikit-learn中混淆嵌套交叉验证的例子
我正在从scikit-learn文档中查看此示例:http://scikit-learn.org/0.18/auto_examples/model_selection/plot_nested_cross_validation_iris.html 在我看来,交叉验证不是以无偏见的方式在这里执行的 . GridSearchCV (据说是内部CV循环)和 cross_val_score (假设是外部... -
1 votesanswersviews
返回scikit学习中线性回归的交叉验证最佳分数参数
这是线性回归模型的交叉验证代码 . 你可以看到最好的分数是0.7,但我怎样才能检索出最佳分数的模型参数(系数)? from sklearn.model_selection import cross_val_score clf = linear_model.LinearRegression() scores = cross_val_score(clf, data_f[features], data_... -
10 votesanswersviews
如何通过索引自定义sklearn交叉验证迭代器?
与Custom cross validation split sklearn类似,我想为GridSearchCV定义自己的拆分,我需要自定义内置的交叉验证迭代器 . 我想将自己的一组列车测试索引传递给GridSearch,而不是允许迭代器为我确定它们 . 我浏览了sklearn文档页面上的可用cv迭代器但找不到它 . 例如,我想实现类似这样的数据有9个样本2折cv我创建了自己的一套训练测试索引 &... -
7 votesanswersviews
具有RFECV的GridSearchCV在sklearn中的含义
基于Recursive feature elimination and grid search using scikit-learn,我知道 RFECV 可以与 GridSearchCV 组合以获得更好的模型参数设置,如线性SVM . 如答案所述,有两种方法: “在RFECV上运行GridSearchCV,这将导致数据分成两次折叠(GridSearchCV内部和RFECV内部),但搜索组件数量... -
0 votesanswersviews
sklearn,python中的网格搜索技术
我正在研究有监督的机器学习算法,它似乎有一种奇怪的行为 . 那么,让我开始吧: 我有一个函数,我传递不同的分类器,它们的参数,训练数据和它们的标签: def HT(targets,train_new, algorithm, parameters): #creating my scorer scorer=make_scorer(f1_score) #creating the grid search ... -
9 votesanswersviews
在scikit中结合网格搜索和交叉验证学习
为了改进支持向量机的结果,我必须使用网格搜索来搜索更好的参数和交叉验证 . 我不确定如何在scikit-learn中将它们结合起来 . 网格搜索搜索最佳参数(http://scikit-learn.org/stable/modules/grid_search.html)和交叉验证避免过度拟合(http://scikit-learn.org/dev/modules/cross_validation.... -
0 votesanswersviews
LeaveOneOut在scikit中进行交叉验证
有谁知道如何删除下面的错误? NameError Traceback (most recent call last) <ipython-input-31-d3625a93ead4> in <module>() 11 loo = LeaveOneOut(num_of_examples) 12 ... -
2 votesanswersviews
如何使用Sklearn的cross_validation(多标签分类)获得每个标签的F1分数
我正在尝试使用sklearn的cross_val_score函数(http://scikit-learn.org/stable/modules/cross_validation.html)进行多标签分类 . scores = cross_validation.cross_val_score(clf, X_train, y_train, cv = 10, scoring = make... -
0 votesanswersviews
Scikit Learn-使用KFold交叉验证的决策树
我对scikit学习/机器学习比较陌生 . 我必须使用Titanic数据集创建决策树,并且需要使用5倍的KFold交叉验证 . 这是我到目前为止所拥有的: cv = KFold(n_splits=5) tree_model = tree.DecisionTreeClassifier(max_depth=3) print(titanic_train.describe()) fold_accurac... -
4 votesanswersviews
用于交叉验证的附加拟合参数
使用 scikit-learn 时,有没有办法在使用 cross_val_score 时将其他参数传递给分类器的 fit 方法?例如,如何为 MultinomialNB 分类器指定 sample_weight 或 class_prior : scikit-learn's page about MultinomialNB -
2 votesanswersviews
交叉验证sklearn中的QDA分类
是不是可以在sklearn中的QDA分类上调用 cross_val_score 函数?这是我的片段: cvKF = cross_validation.KFold(len(communications.target), n_folds=3, shuffle=True) clf_qda = QDA() scores = cross_validation.cross_val_score(clf_qda,... -
0 votesanswersviews
如何在交叉验证后获得支持向量编号
这是我使用非线性SVM进行数字分类的代码 . 我应用交叉验证方案来选择超参数 c 和 gamma . 但是,GridSearch返回的模型没有 n_support_ 属性来获取支持向量的数量 . from sklearn import datasets from sklearn.cross_validation import train_test_split from sklearn.grid_... -
1 votesanswersviews
在pyspark进行交叉验证
我使用交叉验证来训练线性回归模型使用以下代码: from pyspark.ml.evaluation import RegressionEvaluator lr = LinearRegression(maxIter=maxIteration) modelEvaluator=RegressionEvaluator() pipeline = Pipeline(stages=[lr]) paramGr... -
8 votesanswersviews
Keras的交叉验证
我正在Keras中实现一个多层感知器并使用scikit-learn来执行交叉验证 . 为此,我受到了问题中的代码的启发Cross Validation in Keras from sklearn.cross_validation import StratifiedKFold def load_data(): # load your data using this function de... -
3 votesanswersviews
如何访问Scikit了解嵌套的交叉验证分数
我正在使用python,我想使用scikit learn的嵌套交叉验证 . 我找到了一个非常好的example: NUM_TRIALS = 30 non_nested_scores = np.zeros(NUM_TRIALS) nested_scores = np.zeros(NUM_TRIALS) # Choose cross-validation techniques for the inne... -
2 votesanswersviews
Scikit学习交叉验证分裂
我目前正在使用 cross_validation.cross_val_predict 来获取LogisticRegression分类器所做的预测 . 我的问题是:培训集中有多少百分比的数据以及构成测试集的百分比是多少?它是80%-20%的分裂? 我检查了网站和stackoverflow上的其他问题,但没有找到我的问题的答案 .