我正在尝试使用tf-idf来聚类类似的文档 . 我的系统的一个主要缺点是它使用余弦相似性来决定哪些矢量应该组合在一起 .
问题是余弦相似性不满足三角不等式 . 因为在我的情况下,我不能在多个集群中拥有相同的向量,我必须将每个集群与一个共同的元素合并,这可能导致两个文档被分组在一起,即使它们彼此不相似 .
是否有另一种衡量两个文件相似性的方法,以便:
矢量分数根据其方向得分非常相似,无论其大小如何
满足三角不等式:如果A类似于B而B类似于C则A也类似于C
余弦是欧几里德在标准化数据上的平方 .
因此,简单地将L2向量归一化为单位长度,并使用欧几里德 .
不确定它是否可以帮到你 . 在本文中看看TS-SS方法 . 它涵盖了余弦和ED的一些缺点,它有助于以更高的准确度识别矢量之间的相似性 . 更高的准确性有助于您了解哪些文档高度相似并且可以组合在一起 . 该文件说明了为什么TS-SS可以帮助你 .
2 回答
余弦是欧几里德在标准化数据上的平方 .
因此,简单地将L2向量归一化为单位长度,并使用欧几里德 .
不确定它是否可以帮到你 . 在本文中看看TS-SS方法 . 它涵盖了余弦和ED的一些缺点,它有助于以更高的准确度识别矢量之间的相似性 . 更高的准确性有助于您了解哪些文档高度相似并且可以组合在一起 . 该文件说明了为什么TS-SS可以帮助你 .