首页 文章

长度不等的序列的可变indel成本

提问于
浏览
5

我正在使用最佳匹配算法在TraMineR中进行序列分析 . 不幸的是,我的 sequences are of unequal length due to right-censored data . 我的序列的最小长度是5,最大长度11.长度的变化对我感兴趣的序列之间的差异没有意义 . 因此,我想保持不等长度对序列之间总体差异的影响尽可能小 .

我在Stovel和Bolan(2004(1))中读到了这个问题的可能解决方案,他们使用 variable indel costs 取决于序列长度是否相等 . 因此,对于相等长度的序列,它们使用固定的indel成本,并且对于不等长度,它们使用降低的成本,其“大约是固定成本的四分之一” .

My questions would be: 一般来说,如何在TraMineR中编码缺失?作为空白元素还是我应该在字母表中包含缺失状态? TramineR中是否存在应用可变indel成本的选项,如Stovel和Bolan所介绍的那样?如果是,怎么办呢?


(1)Stovel,Katherine和Marc Bolan . “住宅轨迹:利用最优对齐方式揭示住宅流动结构 . ”社会学方法与研究32(4):559-598 .

1 回答

  • 4

    目前,不可能使用可变的indel成本(取决于序列是否具有相等的长度) . 我对这种方法持怀疑态度,因为如果我理解得很清楚,距离测量的定义会根据所涉及的顺序而改变(因为插入成本会发生变化) . 因此,不尊重三角不等式 . 从概念的角度来看,我认为我们应该始终使用相同的比较标准,从而使用相同的距离定义 .

相关问题