import numpy as np
from sklearn.model_selection import train_test_split
n = 10000
p = 50
X = np.random.random((n,p))
y = np.random.randint(0,2,n)
test = 0.25
d = {}
d["X_train"], d["X_test"], d["y_train"], d["y_test"] = train_test_split(X,y,test_size=test)
for split in d:
print(split, d[split].shape)
X_train (7500, 50)
X_test (2500, 50)
y_train (7500,)
y_test (2500,)
2 回答
第二个 .
这意味着75%的数据集用于培训,其余用于测试 . 你有10000个观测值,因此7500用于训练,2500用于测试 .
一般来说,当我们说
A
/B
分裂是X%
/Y%
时 . 这意味着A
得到X%
而B
得到Y%
. 总是 . 而且,X+Y
应该是100 .您可以通过
sklearn
从train_test_split查看: