新闻文章的集群-Java 学习之路

我的场景非常简单：我有一堆新闻文章（目前约为1k），我知道有些文章涉及相同的故事/主题 . 我现在想根据共享的故事/主题对这些文章进行分组，即基于它们的相似性 .

到目前为止，我所做的是应用基本的NLP技术，包括删除词和删除词 . 我还计算了每篇文章的tf-idf向量，并且还可以基于这些tf-idf向量计算例如余弦相似度 . 但现在随着文章的分组我有点挣扎 . 我看到两种主要方式 - 可能是相关的 - 来做到这一点：

1）机器学习/集群：我已经对现有的集群库进行了一些尝试，或多或少取得了成功;见here . 一方面，诸如k-means之类的算法需要簇的数量作为输入，我不知道 . 其他算法需要的参数也不直观（对我而言） .

2）图算法：我可以将我的数据表示为图表，其中文章是节点，加权adges表示文章之间的成对（余弦）相似性 . 有了这个，例如，我可以先删除低于某个阈值的所有边，然后可以应用图算法来查找强连通的子图 .

简而言之，我不确定哪里最好离开这里 - 我在这方面仍然很新 . 我想知道是否有一些最佳实践，或者在某些情况下可以（不）应用某些方法/算法的指南 .

（编辑：忘了链接到我的相关问题）

3 回答