一个新手问题,因为我越来越困惑与pyspark . 我想扩展现有的python数据预处理和数据分析管道 . 我意识到,如果我用pyspark对数据进行分区,我不能再将每个分区视为独立的pandas数据帧,并且需要学习使用pyspark.sql行/列函数进行操作,并更改大量现有代码,再加上我我必然会激发mllib库,并且不能充分利用更成熟的scikit-learn包 . 那么,如果我可以使用多处理工具进行集群计算并在现有数据帧上并行化任务,为什么还需要使用Spark呢?