在我的数据中,序列右侧只有缺失的数据( *
) . 这意味着没有序列以 *
开头,并且 *
之后没有任何序列具有任何其他标记 . 尽管如此,PST(概率后缀树)似乎预测有90%的机会以 *
开头 . 这是我的代码:
# Load libraries
library(RCurl)
library(TraMineR)
library(PST)
# Get data
x <- getURL("https://gist.githubusercontent.com/aronlindberg/08228977353bf6dc2edb3ec121f54a29/raw/c2539d06771317c5f4c8d3a2052a73fc485a09c6/challenge_level.csv")
data <- read.csv(text = x)
# Load and transform data
data <- read.table("thread_level.csv", sep = ",", header = F, stringsAsFactors = F)
# Create sequence object
data.seq <- seqdef(data[2:nrow(data),2:ncol(data)], missing = NA, right= NA, nr = "*")
# Make a tree
S1 <- pstree(data.seq, ymin = 0.05, L = 6, lik = TRUE, with.missing = TRUE)
# Look at first state
cmine(S1, pmin = 0, state = "N3", l = 1)
这会产生:
[>] context: e
EX FA I1 I2 I3 N1 N2 N3 NR
S1 0.006821066 0.01107234 0.01218274 0.01208756 0.006821066 0.002569797 0.003299492 0.001554569 0.0161802
QU TR *
S1 0.01126269 0.006440355 0.9097081
*
的概率怎么能在序列的最开始 0.9097081
,意思是在上下文 e
之后?
这是否意味着上下文可以出现在序列中的任何位置,并且 e
表示序列中某处的任意起始点?
1 回答
PST是可变长度马尔可夫模型(VLMC)的表示 . 作为经典马尔可夫模型,假设VLMC是同质的(或静止的),这意味着给定上下文的结果的条件概率在序列中的每个位置处是相同的 . 换句话说,上下文可以出现在序列中的任何位置 . 实际上,搜索上下文是通过探索应该应用于序列中任何位置的树来完成的 .
在您的示例中,对于
l=1
(l
是上下文的长度),您只查看0长度上下文,即唯一可能的上下文是空序列e
. 您的条件pmin=0, state=N3
(N3
的概率大于0)相当于完全没有条件 . 因此,您可以获得观察每个州的总体概率 . 因为你的序列(缺少状态)都具有相同的长度,所以使用TraMineR
可以得到相同的结果要在第一个位置获得分布,您可以使用
TraMineR
并查看返回的连续位置处的横截面分布表的第一列 .希望这可以帮助 .