首页 文章

Xgboost预测模型缺少假期

提问于
浏览
0

我正在 Build 一个预测系统,以预测在给定时间点断开连接的有线电视用户数量 . 我正在使用Python,并且在我尝试的不同模型中,XGBoost表现最佳 .

我有一个自我参照系统,它以移动的窗口方式工作,例如,当我用完实际,我开始使用我的滞后预测数字 .

为了 Build 预测系统,我使用了前800天的滞后(一天断开连接),移动平均线,比率,季节性,年,月,日,周等指标 . 但是,假期,哪里有点搞砸了 . 最初我只使用一列来表示所有种类的假期,但后来我发现不同的假期可能会产生不同的影响(有些假期导致高销量,有些假期导致流失)所以我为每个假期添加了一列,我还添加了长周末,周日等假期的指标 . 我还增加了一个“季节”栏目,表示节日,如感恩节,新年假期等 .

即使在添加了这么多假日相关专栏之后,我也很想念感恩节和新年 . 虽然它确实在某种程度上照顾假期,但它完全错过了飙升 . 从图表中可以看出,峰值是一种趋势,每年都会出现(橙色) . 我的预测(灰色)确实解决了12月17日的假期,但它在预测之下,任何关于如何处理的想法 .
enter image description here

附:我使用gridsearch调整了xgboost超参数

1 回答

  • 0

    据我了解,如果您清理了数据,删除了异常值,您的模型将提供更稳定的预测集,但它将无法预测所述异常值 .

    如果您确实清理了数据,我会使用阈值,查看更广泛的常规日错误是否能够预测更高的峰值 .

相关问题