我有10万个句子,我用高度自定义的停用词和nlp词干 . 我的目标是使用dbscan或其他基于密度的集群对句子进行聚类,以发现类似的句子 .

在scikit-learn 's dbscan implementation, I run out of memory when I cluster more than 40,000 sentences. I have seen suggestions to use ELKI'的Java集群GUI中 . 我'd like to try clustering in Java, but I cannot find a method for moving my TF-IDF vectors from Python to ELKI. ELKI'的文档声明它可以处理特定格式的sparse vectors或.arff .

  • 最具体的问题 . 任何人都可以建议如何将TFIDF向量从scikit-learn转移到可以加载到ELKI中的格式 .

  • ELKI会比scikit-learn更好地管理记忆吗?或者这是毫无意义的工作?