首页 文章

Apache Spark:多机器学习算法的并行化

提问于
浏览
0

有没有办法在Spark中并行化多个ML算法 . 我的用例是这样的:A)并行运行多机器学习算法(Naive Bayes,ANN,Random Forest等) . 1)使用10倍交叉验证验证每个算法B)将步骤A)的输出馈送到第二层机器学习算法中 . 我的问题是:我们可以在步骤A并行运行多个机器学习算法吗?我们可以并行进行交叉验证吗?比如,并行运行10次Naive Bayes训练?

我无法找到任何方法并行运行不同的算法 . 似乎交叉验证也不能并行完成 . 我感谢任何建议并行化这个用例 .

1 回答

  • -1

    我通常会发现人们混淆了一个单词 - 分布式 . 不分发任何编程语言或ML算法 . 它取决于执行引擎的集合(数据结构) . 例如,Scala不是分布式的,更具体地说,Scala的集合不是分布式的 . 像Spark这样的大数据工具使得分发的集合被包装在自己的数据结构中,是的,我在谈论RDD,Dataframes,LableledPoints,Vectors . 这些结构使计算并行,这又取决于分区 .

    回答你的问题 - 是的,我们可以在并行模式下运行机器学习,因为任何机器学习将在其中调用的数据分布在某个n大小的集群中的节点之间 .

相关问题