我已经阅读了大量的帮助和在线预订,包括http://a-little-book-of-r-for-time-series.readthedocs.io/en/latest/src/timeseries.html但是't seem to find a similar example to what I need. I'在数据集中有时间条目不常规 . 我正在跟踪推文 . 这是我的示例数据帧:推文数据帧:(推文数始终是1 - 它是假的)
datetime tweetcount retweets hashtags_used atmention likes
02-01-2016 02:34 1 3 1 2 1
04-01-2016 13:45 1 1 1 1 0
04-01-2016 17:55 1 5 2 4 2
Follow_dat
(这是一个单独的数据框,跟随计数总是1 - 虚拟)
datetime followcount
02-01-2016 02:34 1
04-01-2016 13:45 1
04-01-2016 17:55 1
我尝试了几件事:例如,我使用cut命令将数据剪切成几小时,但这不准确,因为在那一小时内跟随者可能仍然在推文之前 - 我不确定这是否有意义 .
我想要做的是找出追随者与时间相关的推文变量/因素 . 通过按小时缩短来创建一个更精确的表我会降低准确性,但我似乎无法找到另一种方法来进行回归并使模型与此相符,或者找出哪些因素很重要 .
df$week <- as.Date(cut(df$datetime, breaks = "week", start.on.monday = FALSE))
我用来剪切数据的代码 . 然后我聚合到另一个表中 . 从那里我可以运行ARIMA但是... a)这意味着跟随和推文可以在同一周关联,即使在推文之前发生了跟随 . 我需要确保跟进之后 . b)如果下周发生了跟随,那么它就没有关联 .
1 回答
将日期时间重新编码为几个因素(如年,月,工作日,分钟或秒)并提供适当的聚合是一种合理的方法,尤其是在您尝试确定季节性或趋势时 .
您能更详细地解释一下您想要预测/完成的内容吗?