首页 文章

用于分组新闻文章的增量聚类算法?

提问于
浏览
14

我正在做一些关于如何将文章聚集成“新闻报道”的新闻 .

看一下之前关于这个问题的问题,我经常看到它建议简单地从一篇文章中提取一个单词的向量,如果它们在文章的某些部分(例如 Headers )中,则更多地加权一些单词,然后使用类似k-means算法的东西来聚类文章 .

但这导致了几个问题:

  • 用k-means,你怎么知道k应该是多少?在动态新闻环境中,您可能会有不同数量的故事,并且您不会事先知道一组文章所代表的故事数量 .

  • 使用分层聚类算法,您如何确定将哪些聚类用作故事?您将在树的底部有一些集群,这些集群只是单个文章,您显然不想使用这些集群,并且树的根目录中包含所有文章的集群,这也是您不想要的......但是你怎么知道它们之间的哪些集群应该被用来代表故事呢?

  • 最后,使用k-means或hierarchal算法,我读过的大多数文献似乎都假设你有一个你想要聚类的预设文档集合,它会立即将它们聚类在一起 . 但是,你经常会有新文章进入的情况如何 . 怎么了?你是否必须从头开始集中所有文章,现在还有一个?这就是为什么我想知道是否有方法可以让你在不重新聚类的情况下“添加”文章 . 我无法想象这是非常有效的 .

2 回答

  • 2

    我会搜索自适应K-means聚类算法 . 有一个很好的研究专门讨论你描述的问题 . 这是一个这样的paper(pdf)

  • 3

    我在一家初创公司工作,这是一个新闻文章的增量集群引擎 . 我们的算法基于本文:使用文档索引图(http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851)进行Web文档聚类 . 为我们每天10K篇文章做得很好 .

    它有两个主要优点:1)它是增量的,它解决了你必须处理传入文章流(而不是一次聚集所有)的问题2)它使用基于短语的建模,而不是只是“袋子单词“,这导致更高的准确性 .

    谷歌搜索弹出http://www.similetrix.com,他们可能会有你想要的东西 .

相关问题