群集分配重新映射-Java 学习之路

我有来自UCI机器学习库的测试分类数据集，这些数据集已标记 .

我正在剥离标签并使用数据来对一些聚类算法进行基准测试，然后我计划使用外部验证方法 . 我将使用不同的初始配置运行算法，例如50次，然后取平均值 . 对于50次迭代，算法标记具有不同数字的单个群集的数据点 . 因为在每次运行中集群标签都可以更改，因为每次迭代可能会有稍微不同的集群分配，如何以某种方式将每个集群重新映射到一个统一编号 .

主要思想是通过检查类标签中有多少点与实际标签中的最大值相交，然后根据它进行重映射来重新映射，但这可能会得到不正确的重映射，因为当类的数量或多或少相等时分，这不行 .

另一个想法是在聚类时保留标签，但使聚类算法忽略它 . 这样，所有群集数据都将具有标签标签 . 这是可行的，但我已经有一个基准的集群分配数据要处理，因此我试图避免修改和重新基准测试我的实现（这需要相当长的时间和cpu）的集群分析算法，并包括标签标签向量然后忽略它 .

有没有什么方法可以从我现在的群集分配中计算平均准确度？

EDIT:

我正在研究的领域（元启发式聚类算法）我找不到比较这些索引的论文 . 比较的论文似乎不正确 . 任何人都可以指向一篇论文，其中使用这些索引中的任何一个来比较聚类结果吗？

1 回答

1

如果群集数量不一致，您会怎么做？

不要尝试映射群集 .

相反，使用适当的外部验证措施进行群集，这不需要群集的1：1对应关系 . 有很多，详见维基百科 .

回复于 2024-04-18T19:34:12+08:00

群集分配重新映射

1 回答

相关问题