首页 文章

隐马尔可夫模型:随着状态数量的增加,精度是否有可能降低?

提问于
浏览
3

我使用Baum-Welch算法为越来越多的状态构造了几个隐马尔可夫模型 . 我注意到在8个州之后,验证分数下降超过8个州 . 所以我想知道,由于某种过度拟合,隐马尔可夫模型的准确性是否可能随着越来越多的状态而降低?

提前致谢!

1 回答

  • 3

    为了清楚起见,我在这里提出了一个非常简化的现象说明 .

    假设您使用数据序列(A-B-A-B)训练您的HMM . 假设您使用2状态HMM . 当然,状态1将优化自身以表示A,状态2将表示B(或相反) . 然后,你有一个新的序列(A-B-A-B) . 您想知道此序列对您的HMM的可能性 . 维特比算法将发现最可能的状态序列是(1-2-1-2),并且Baum-Welch算法将给出该序列作为状态序列和新序列的“值”的高可能性(如果使用连续数据)明显符合您的训练顺序 .

    现在假设您训练具有相同训练序列的三态HMM(A-B-A-B) . 数据的初始聚类很可能要么为符号A的表示分配HMM的2个第一状态,而将最后一个状态分配给符号B(或者再次反对) .

    所以现在,查询序列(ABAB)可以表示为状态序列(1-3-1-3)或(2-3-2-3)或(1-3-2-3)或(2-3) -1-3)!这意味着对于这种3态HMM,两个相同的序列(A-B-A-B)可以具有HMM的低相似性 . 这就是为什么对于任何HMM和任何数据集,超过一定数量的状态,性能将降低的原因 .

    您可以使用贝叶斯信息准则,Akaike信息准则,最小消息长度准则等标准来估计最佳状态数,或者如果您只是想获得模糊概念,则k均值聚类与方差百分比相结合解释 . 第一个标准很有意思,因为它们包含一个与模型参数数量相关的惩罚项 .

    希望能帮助到你! :)

相关问题