隐马尔可夫模型：随着状态数量的增加，精度是否有可能降低？-Java 学习之路

我使用Baum-Welch算法为越来越多的状态构造了几个隐马尔可夫模型 . 我注意到在8个州之后，验证分数下降超过8个州 . 所以我想知道，由于某种过度拟合，隐马尔可夫模型的准确性是否可能随着越来越多的状态而降低？

提前致谢！

1 回答

3

为了清楚起见，我在这里提出了一个非常简化的现象说明 .

假设您使用数据序列（A-B-A-B）训练您的HMM . 假设您使用2状态HMM . 当然，状态1将优化自身以表示A，状态2将表示B（或相反） . 然后，你有一个新的序列（A-B-A-B） . 您想知道此序列对您的HMM的可能性 . 维特比算法将发现最可能的状态序列是（1-2-1-2），并且Baum-Welch算法将给出该序列作为状态序列和新序列的“值”的高可能性（如果使用连续数据）明显符合您的训练顺序 .

现在假设您训练具有相同训练序列的三态HMM（A-B-A-B） . 数据的初始聚类很可能要么为符号A的表示分配HMM的2个第一状态，而将最后一个状态分配给符号B（或者再次反对） .

所以现在，查询序列（ABAB）可以表示为状态序列（1-3-1-3）或（2-3-2-3）或（1-3-2-3）或（2-3） -1-3）！这意味着对于这种3态HMM，两个相同的序列（A-B-A-B）可以具有HMM的低相似性 . 这就是为什么对于任何HMM和任何数据集，超过一定数量的状态，性能将降低的原因 .

您可以使用贝叶斯信息准则，Akaike信息准则，最小消息长度准则等标准来估计最佳状态数，或者如果您只是想获得模糊概念，则k均值聚类与方差百分比相结合解释 . 第一个标准很有意思，因为它们包含一个与模型参数数量相关的惩罚项 .

希望能帮助到你！ :)

回复于 2024-04-30T21:28:01+08:00

隐马尔可夫模型：随着状态数量的增加，精度是否有可能降低？

1 回答

相关问题