Scikit-learn KNN（K Nearest Neighbors）使用Apache Spark进行并行化-Java 学习之路

我一直致力于使用Python和Python的Scikit-learn机器学习API进行机器学习KNN（K Nearest Neighbors）算法 .

我使用python和Scikit-learn创建了带有玩具数据集的示例代码，我的KNN工作正常 . 但正如我们所知，Scikit-learn API可以在单机上运行，因此一旦我用数百万的数据集替换我的玩具数据，它将降低我的输出性能 .

我已经搜索了许多选项，帮助和代码示例，它们将使用带Scikit-learn API的spark并行分发我的机器学习处理，但我没有找到任何正确的解决方案和示例 .

你能告诉我如何通过Apache Spark和Scikit-learn API的K Nearest Neighbors实现并提高我的表现吗？

提前致谢！！

1 回答

1

根据讨论 https://issues.apache.org/jira/browse/SPARK-2336 这里MLLib（Apache Spark的机器学习库）没有KNN的实现 . 你可以试试 https://github.com/saurfang/spark-knn .

回复于 2024-04-24T19:20:54+08:00