随机森林比线性回归更差？这很正常，原因是什么？-Java 学习之路

我正在尝试使用机器学习来预测数据集 . 这是一个回归问题，具有180个输入要素和1个连续值输出 . 我尝试比较深度神经网络，随机森林回归和线性回归 .

正如我所料，3隐藏层深度神经网络的表现优于其他两种方法，均方根误差（RMSE）为0.1 . 然而，我意外地发现随机森林的表现甚至比线性回归更差（RMSE 0.29对0.27） . 在我的期望中，随机森林可以发现功能之间更复杂的依赖关系，以减少错误 . 我试图调整随机森林的参数（树的数量，最大特征，max_depth等） . 我也尝试了不同的K-cross验证，但性能仍然低于线性回归 .

我在网上搜索，一个答案说如果特征对协变量具有平滑，几乎线性的依赖性，线性回归可能表现得更好 . 我不完全明白这一点，因为如果是这样的话，那么深度神经网络不应该提供很多性能提升吗？

我正在努力解释 . 在什么情况下，随机森林比线性回归更差，但深度神经网络可以表现得更好？

1 回答

3

如果您的要素解释了与目标变量的线性关系，则线性模型通常比随机森林模型表现良好 . 它完全取决于您的功能之间的线性关系 .

也就是说，线性模型不是优越的，或随机森林是任何劣质模型 .

尝试使用 MinMaxScaler() 从 sciki-learn 缩放和转换数据，以查看线性模型是否进一步改进

Pro Tips

如果线性模型像魅力一样工作，你需要问自己为什么？如何？并深入了解这两个模型的基础知识，以了解它为什么对您的数据起作用 . 这些问题将使您更好地了解功能工程师 . 事实上，Kaggle Grand Masters在堆叠中使用线性模型通过捕获数据集中的线性关系来获得前1％的得分 .

因此，在一天结束时，线性模型也可能是奇迹 .

回复于 2024-04-20T23:46:05+08:00

随机森林比线性回归更差？这很正常，原因是什么？

1 回答

相关问题