首页 文章

Scikit-learn KNN(K Nearest Neighbors)使用Apache Spark进行并行化

提问于
浏览
1

我一直致力于使用Python和Python的Scikit-learn机器学习API进行机器学习KNN(K Nearest Neighbors)算法 .

我使用python和Scikit-learn创建了带有玩具数据集的示例代码,我的KNN工作正常 . 但正如我们所知,Scikit-learn API可以在单机上运行,因此一旦我用数百万的数据集替换我的玩具数据,它将降低我的输出性能 .

我已经搜索了许多选项,帮助和代码示例,它们将使用带Scikit-learn API的spark并行分发我的机器学习处理,但我没有找到任何正确的解决方案和示例 .

你能告诉我如何通过Apache Spark和Scikit-learn API的K Nearest Neighbors实现并提高我的表现吗?

提前致谢!!

1 回答

  • 1

    根据讨论 https://issues.apache.org/jira/browse/SPARK-2336 这里MLLib(Apache Spark的机器学习库)没有KNN的实现 . 你可以试试 https://github.com/saurfang/spark-knn .

相关问题