我有一组数字特征来描述不同时间点的现象 . 为了评估每个特征的个体性能,我执行线性回归并留下一个验证,并计算相关性和误差以评估结果 .
因此,对于单个功能,它将是这样的:
-
输入:特征F = {F_t1,F_t2,... F_tn}
-
输入:现象P = {P_t1,P_t2,... P_tn}
-
根据F的线性回归P,加上一个 .
-
评估:计算相关性(线性和矛头)和误差(平均绝对值和均方根)
对于一些变量,两个相关性都非常好(> 0.9),但是当我看一下预测时,我意识到预测都非常接近平均值(要预测的值),所以错误是大 .
怎么可能?
有办法解决吗?
对于某些技术精度,我使用带有选项“-S 1”的weka线性回归以避免特征选择 .
1 回答
这似乎是因为我们想要回归的问题不是线性的,我们使用线性方法 . 然后可能具有良好的相关性和差的错误 . 这并不意味着回归是错误的或非常糟糕,但你必须非常小心并进一步调查 .
无论如何,一种非线性方法可以最大限度地减少错误并最大化相关性,这是一种可行的方法 .
而且,异常值也会使这个问题发生 .