我得到了一个数据集(每日和每月的降雨量数据)但它缺少这么多的 Value . 为了训练我需要填补缺失数据的数据,你能告诉我我该怎么办?我使用SPSS Statistic但看起来 Value 不好或者我做错了方法 .
sample:
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
3 3 5 5 6 7 8 7 8 9 NaN 4
NaN 3 NaN 5 NaN 3 4 NaN 4 6 7 8
7 NaN 4 7 8 9 4 2 NaN 4 6 5
.....................................................
另一个问题是,培训前的数据大多应该是规范化数据,这是正确的吗?谢谢你的回答!祝圣诞快乐!
2 回答
对于丢失的数据,您可以选择使用
mean
的现有数据来模拟丢失的数据 . 例如,您需要mean(3, 7) = 5
来填充Jan
中的NaN
,依此类推 . 我认为这可能是最简单的方法 . 您还可以考虑矩阵分解和曲线拟合 .对于规范化,某些分类器不需要规范化数据 . 但是,将数据标准化通常是提高性能的好方法 . 对于神经网络,已知归一化数据是非常有利的 . 所以不要犹豫,这样做 .
按
Ctrl+G
,然后单击Special
,然后选中Formulas
,然后确保仅选中Errors
,然后单击OK
. 这将选择所有有错误的单元格 . 然后,您可以按Delete
清除其内容 .我有时会创建第二个表,其中包含将一个表的值转换为原始值或更容易管理的公式,如建议here .