将数据从Scikit-Learn转移到Elki进行聚类-Java 学习之路

我有10万个句子，我用高度自定义的停用词和nlp词干 . 我的目标是使用dbscan或其他基于密度的集群对句子进行聚类，以发现类似的句子 .

在scikit-learn 's dbscan implementation, I run out of memory when I cluster more than 40,000 sentences. I have seen suggestions to use ELKI'的Java集群GUI中 . 我'd like to try clustering in Java, but I cannot find a method for moving my TF-IDF vectors from Python to ELKI. ELKI'的文档声明它可以处理特定格式的sparse vectors或.arff .

最具体的问题 . 任何人都可以建议如何将TFIDF向量从scikit-learn转移到可以加载到ELKI中的格式 .
ELKI会比scikit-learn更好地管理记忆吗？或者这是毫无意义的工作？

将数据从Scikit-Learn转移到Elki进行聚类

相关问题