首页 文章

概念上将类似文档聚类在一起?

提问于
浏览
6

这更像是一个概念问题,而不是一个实际的实现,我希望有人可以澄清 . 我的目标如下:给定一组文档,我想对它们进行聚类,使属于同一个集群的文档具有相同的“概念” .

根据我的理解,Latent Semantic Analysis让我找到一个术语 - 文档矩阵的低秩近似,即给定矩阵 X ,它将分解 X 作为三个矩阵的乘积,其中一个是对角矩阵 Σ

SVD

现在,我将继续选择低秩近似,即从 Σ 中仅选择前k个值,然后计算 X' . 一旦我有了这个矩阵,我就必须应用一些聚类算法,最终结果将是对具有相似概念的文档进行分组 . 这是应用群集的正确方法吗?我的意思是,计算 X' ,然后在其上应用聚类或是否有其他方法遵循?

此外,在我的某个地方,有人告诉我,随着维数的增加,邻居的意义也会丢失 . 在这种情况下,从 X' 聚集这些高维数据点的理由是什么?我猜测集群类似文档的要求是一个现实世界的要求,在这种情况下,如何解决这个问题呢?

1 回答

  • 4

    对于你的第一部分问题:不,你不再需要执行任何'clustering'了 . 您可以从 singular value decomposition 获取此类群集 . 如果仍然不清楚,请详细了解您的链接Latent Semantic Analysis .

    对于你的第二部分:请弄清楚你问题的第一部分,然后根据这一点重述你的问题的这一部分 .

相关问题