我是spark和hadoop的新手,但是我想使用spark来进行并行计算以进行k-fold交叉验证的机器学习任务 . 问题形成如下:

我想使用pyspark和mllib包训练多个机器学习分类器并使用k-Fold交叉验证 . 说5个CV分类器 .

在培训中:对于CV,每个折叠我有10个.csv文件 . 我想使用RDD进行分发,以便将它们分发到不同的分区,并且我可以为每个折叠和每个分类器并行运行ml.py.

假设csv文件类似于:f1.csv,f2.csv,...,f10.csv . 培训/测试机器学习任务的脚本是ml.py.是否可以自定义RDD如何分发数据?如果是,我可以使用pyspark来实现吗?

谢谢!