我有一个数据集,其中包含用户在网站上的文本字段中写入的文本 . 由于网站的性质,大多数用户在该领域多次撰写 . 现在我想看看是否有模式 . 例如,在某个时间写入“A”的用户将在以后写入“B” .
经过一些谷歌搜索后,我发现 TraMineR
作为这种分析的库 . 但似乎 TraMineR
和/或R在状态数上设置了最大值 . 这是真的还是我做错了什么?解决问题的最佳方法是什么?
有关我的数据集的更多信息:
-
有超过一百万个日志的文本输入
-
约90000个不同的用户
-
大约80000个不同的输入(事件/状态?)
要创建我的数据的状态序列对象,我需要使用来自 TraMineRextras
(As explained here)的 seqe2stm()
,其中 events
的数量超过80000.运行该函数会给出错误:
矩阵中的错误(TRUE,nrow = nbstate,ncol = nevent):无效的'nrow'值(太大或NA)另外:警告消息:在矩阵中(TRUE,nrow = nbstate,ncol = nevent):引入的NAs强制到整数范围