使用spark RDD在机器学习任务中进行交叉验证-Java 学习之路

我是spark和hadoop的新手，但是我想使用spark来进行并行计算以进行k-fold交叉验证的机器学习任务 . 问题形成如下：

我想使用pyspark和mllib包训练多个机器学习分类器并使用k-Fold交叉验证 . 说5个CV分类器 .

在培训中：对于CV，每个折叠我有10个.csv文件 . 我想使用RDD进行分发，以便将它们分发到不同的分区，并且我可以为每个折叠和每个分类器并行运行ml.py.

假设csv文件类似于：f1.csv，f2.csv，...，f10.csv . 培训/测试机器学习任务的脚本是ml.py.是否可以自定义RDD如何分发数据？如果是，我可以使用pyspark来实现吗？

谢谢！

使用spark RDD在机器学习任务中进行交叉验证