我正在使用scikit-learn培训决策树分类器 .

Scikit-learn要求,对于培训,所有数据都要加载并提前提供

clf.fit(features, ys)

但是,我的功能和ys是从几GB的数据文件中加载的,并且不能一次性加载它们 .

有没有办法解决这个问题?

我不能想到一个明显的解决方案,因为决策树依赖于信息增益/熵减少,这需要同时对所有数据进行概述,但我认为有些人可能以前遇到过类似的问题 .