首页 文章

群集分配重新映射

提问于
浏览
2

我有来自UCI机器学习库的测试分类数据集,这些数据集已标记 .

我正在剥离标签并使用数据来对一些聚类算法进行基准测试,然后我计划使用外部验证方法 . 我将使用不同的初始配置运行算法,例如50次,然后取平均值 . 对于50次迭代,算法标记具有不同数字的单个群集的数据点 . 因为在每次运行中集群标签都可以更改,因为每次迭代可能会有稍微不同的集群分配,如何以某种方式将每个集群重新映射到一个统一编号 .

主要思想是通过检查类标签中有多少点与实际标签中的最大值相交,然后根据它进行重映射来重新映射,但这可能会得到不正确的重映射,因为当类的数量或多或少相等时分,这不行 .

另一个想法是在聚类时保留标签,但使聚类算法忽略它 . 这样,所有群集数据都将具有标签标签 . 这是可行的,但我已经有一个基准的集群分配数据要处理,因此我试图避免修改和重新基准测试我的实现(这需要相当长的时间和cpu)的集群分析算法,并包括标签标签向量然后忽略它 .

有没有什么方法可以从我现在的群集分配中计算平均准确度?

EDIT:

我正在研究的领域(元启发式聚类算法)我找不到比较这些索引的论文 . 比较的论文似乎不正确 . 任何人都可以指向一篇论文,其中使用这些索引中的任何一个来比较聚类结果吗?

1 回答

  • 1

    如果群集数量不一致,您会怎么做?

    不要尝试映射群集 .

    相反,使用适当的外部验证措施进行群集,这不需要群集的1:1对应关系 . 有很多,详见维基百科 .

相关问题