在R中的大型数据集上运行回归树-Java 学习之路

我正在处理大约150万次观测的数据集 . 我发现在我的数据的一小部分上运行一个回归树（我正在使用 party 包中的 mob() *函数）花费的时间非常长（我不能运行超过50k的子集） .

我可以想到两个主要问题是减慢计算速度

使用整个数据集在每个步骤计算拆分 . 我会对基于数据的随机子集选择变量在每个节点上拆分的结果感到满意，只要它继续补充树中每个子节点处的样本大小即可 .
操作未并行化 . 在我看来，只要树首次拆分，它就应该能够使用两个处理器，这样当我的机器中的每个处理器有16个分裂时，它们就会被使用 . 在实践中，似乎只有一个被使用 .

有没有人对替代树实现提出建议，这些实现对大型数据集更有效，或者我可以改变以使计算更快的事情**？

*我正在使用 mob() ，因为我想在每个节点的底部进行线性回归，根据它们对治疗变量的响应来分割数据 .

**似乎减慢计算量的一件事是我有一个16种类型的因子变量 . 计算要拆分的变量的哪个子集似乎比其他拆分需要更长的时间（因为有很多不同的方法可以对它们进行分组） . 这个变量是我们认为重要的变量，因此我不愿完全放弃它 . 是否有推荐的方法在将类型放入树模型之前将其分组为较少数量的值？

1 回答