概念上将类似文档聚类在一起？-Java 学习之路

这更像是一个概念问题，而不是一个实际的实现，我希望有人可以澄清 . 我的目标如下：给定一组文档，我想对它们进行聚类，使属于同一个集群的文档具有相同的“概念” .

根据我的理解，Latent Semantic Analysis让我找到一个术语 - 文档矩阵的低秩近似，即给定矩阵 X ，它将分解 X 作为三个矩阵的乘积，其中一个是对角矩阵 Σ ：

SVD

现在，我将继续选择低秩近似，即从 Σ 中仅选择前k个值，然后计算 X' . 一旦我有了这个矩阵，我就必须应用一些聚类算法，最终结果将是对具有相似概念的文档进行分组 . 这是应用群集的正确方法吗？我的意思是，计算 X' ，然后在其上应用聚类或是否有其他方法遵循？

此外，在我的某个地方，有人告诉我，随着维数的增加，邻居的意义也会丢失 . 在这种情况下，从 X' 聚集这些高维数据点的理由是什么？我猜测集群类似文档的要求是一个现实世界的要求，在这种情况下，如何解决这个问题呢？

1 回答