-
6 votesanswersviews
在scikit-learn中分层训练/验证/测试分裂
这里已经描述了如何通过train_test_split(Stratified Train/Test-split in scikit-learn)在scikit中进行分层训练/测试分割,以及如何通过np.split(How to split data into 3 sets (train, validation and test)?)进行随机训练/验证/测试分裂的描述 . 但是如何进行分层训练/验证... -
2 votesanswersviews
Python:ValueError要解压的值太多(预期2)
我试图通过GridSearchCV找到最好的xgboost模型,并且作为cross_validation我想使用April目标数据 . 这是代码: x_train.head() x_train y_train.head() y_train from sklearn.model_selection import GridSearchCV from sklearn.model_select... -
11 votesanswersviews
使用ImageDataGenerator时,Keras分割列车测试集
我有一个目录,其中包含图像的子文件夹(根据标签) . 我想在Keras中使用ImageDataGenerator时将这些数据拆分为train和test set . 尽管keras中的model.fit()具有用于指定拆分的参数validation_split,但我找不到与model.fit_generator()相同的参数 . 怎么做 ? train_datagen = ImageDataGene... -
1 votesanswersviews
使用pd.get_dummies后,根据整数列值获取原始的列车测试分割
我将我的火车和测试数据集结合起来,并将pandas中的get_dummies函数用于一个热编码分类数据 . 连接背后的原因是列车和测试集的分类数据中的级别数不同 . 如果我在单独的列车和测试集上使用get_dummies函数,那么我会得到一个不同维度的数据帧,所以我想把它们组合起来 . 我现在想再将它拆分成火车和测试装置 . 可能吗? 假设使用pd.get_dummies后得到的输出被命名为'da... -
0 votesanswersviews
来自Scikit-learn的train_test_split()的行为
我很好奇Scikit-learn的train_test_split()方法在以下场景中的表现如何: 一个虚构的数据集: id, count, size 1, 4, 8 2, 5, 9 3, 6, 0 说我会将它分成两个独立的集合(两者都保持'id'): id, count | id, size 1, 4 | 1, 8 2, 5 ... -
1 votesanswersviews
为什么我的模型可以使用来自train_test_split的测试数据,而不使用新数据?
我是机器学习的新手 . 我有一个连续的数据集 . 我正在尝试使用几个功能对目标标签进行建模 . 我利用train_test_split函数来分离火车和测试数据 . 我正在使用以下代码训练和测试模型: X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) model = Sequential() model... -
0 votesanswersviews
scikit-learn错误:y中填充最少的类只有1个成员
我正在尝试使用scikit-learn中的train_test_split函数将我的数据集拆分为训练和测试集,但我收到此错误: In [1]: y.iloc[:,0].value_counts() Out[1]: M2 38 M1 35 M4 29 M5 15 M0 15 M3 15 In [2]: xtrain, xtest, ytrain, ytest ... -
0 votesanswersviews
从火车上复制pandas.get_dummies列以测试数据
我有两个数据帧, train 和 test . 它们都具有完全相同的列名,其中包含分类字符串功能 . 我正在尝试将这些特征映射到训练集中的虚拟变量,训练回归模型,然后对测试集执行相同的精确映射并将训练的模型应用于它 . 我遇到的问题是,由于 test 小于 train ,它碰巧不包含某些分类功能的所有可能值 . 由于 pandas.get_dummies() 似乎只是查看 data.Series... -
1 votesanswersviews
如何拆分数据集以训练/测试某些行依赖的位置?
我有一个主题数据集,每个主题在我的pandas数据框中有很多行(每个测量都是一行,一个主题可以测量几次) . 我想将我的数据分成训练和测试集,但我不能随意拆分,因为所有受试者的测量都是相关的(不能将相同的主题放在火车和测试中) . 你会如何重新获得这个?我有一个熊猫数据帧,每个主题都有不同数量的测量 . 编辑:我的数据包括每行的主题编号,我想尽可能接近0.8 / 0.2 .