首页 文章

Python机器学习标签和功能

提问于
浏览
0

给定一个包含10,000个观测值和50个特征加上一个标签的数据集,X_train,y_train,X_test和y_test的维数是多少,假设列车/测试分割为75%/ 25%?应该是吗?

X_train:(2500, 50)
y_train: (2500, )
X_test: (7500, 50)
y_test: (7500, )

要么

X_train: (7500, 50)
y_train: (7500, )
X_test: (2500, 50)
y_test: (2500, )

2 回答

  • 0

    第二个 .

    假设列车/测试分成75%/ 25%

    这意味着75%的数据集用于培训,其余用于测试 . 你有10000个观测值,因此7500用于训练,2500用于测试 .

    一般来说,当我们说 A / B 分裂是 X% / Y% 时 . 这意味着 A 得到 X%B 得到 Y% . 总是 . 而且, X+Y 应该是100 .

  • 0

    您可以通过 sklearntrain_test_split查看:

    import numpy as np
    from sklearn.model_selection import train_test_split
    
    n = 10000
    p = 50
    X = np.random.random((n,p))
    y = np.random.randint(0,2,n)
    
    test = 0.25
    d = {}
    d["X_train"], d["X_test"], d["y_train"], d["y_test"] = train_test_split(X,y,test_size=test)
    
    for split in d:
        print(split, d[split].shape)
    
    X_train (7500, 50)
    X_test (2500, 50)
    y_train (7500,)
    y_test (2500,)
    

相关问题