我有一个数据集,其中包含用户在网站上的文本字段中写入的文本 . 由于网站的性质,大多数用户在该领域多次撰写 . 现在我想看看是否有模式 . 例如,在某个时间写入“A”的用户将在以后写入“B” .

经过一些谷歌搜索后,我发现 TraMineR 作为这种分析的库 . 但似乎 TraMineR 和/或R在状态数上设置了最大值 . 这是真的还是我做错了什么?解决问题的最佳方法是什么?

有关我的数据集的更多信息:

  • 有超过一百万个日志的文本输入

  • 约90000个不同的用户

  • 大约80000个不同的输入(事件/状态?)

要创建我的数据的状态序列对象,我需要使用来自 TraMineRextrasAs explained here)的 seqe2stm() ,其中 events 的数量超过80000.运行该函数会给出错误:

矩阵中的错误(TRUE,nrow = nbstate,ncol = nevent):无效的'nrow'值(太大或NA)另外:警告消息:在矩阵中(TRUE,nrow = nbstate,ncol = nevent):引入的NAs强制到整数范围