我一直致力于使用Python和Python的Scikit-learn机器学习API进行机器学习KNN(K Nearest Neighbors)算法 .
我使用python和Scikit-learn创建了带有玩具数据集的示例代码,我的KNN工作正常 . 但正如我们所知,Scikit-learn API可以在单机上运行,因此一旦我用数百万的数据集替换我的玩具数据,它将降低我的输出性能 .
我已经搜索了许多选项,帮助和代码示例,它们将使用带Scikit-learn API的spark并行分发我的机器学习处理,但我没有找到任何正确的解决方案和示例 .
你能告诉我如何通过Apache Spark和Scikit-learn API的K Nearest Neighbors实现并提高我的表现吗?
提前致谢!!
1 回答
根据讨论
https://issues.apache.org/jira/browse/SPARK-2336
这里MLLib(Apache Spark的机器学习库)没有KNN的实现 . 你可以试试https://github.com/saurfang/spark-knn
.