我有一个按日期索引的 pandas
数据框 . 让's assume it from Jan-1 to Jan-30. I want to split this dataset into X_train, X_test, y_train, y_test but I don' t想要混合日期,所以我希望火车和测试样本除以某个日期(或索引) . 我尝试着
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
但是当我检查数值时,我看到日期是混合的 . 我想将我的数据拆分为:
Jan-1 to Jan-24
要训练和 Jan-25 to Jan-30
进行测试(因为test_size是0.2,这使得24次训练和6次测试)
我怎样才能做到这一点?谢谢
2 回答
尝试使用TimeSeriesSplit:
这导致了
X
你应该使用
不要使用
random_state=None
它需要numpy.random
在here中提到使用
shuffle=False
和stratify=None