首页 文章

使用Pyspark运行python脚本的问题

提问于
浏览
0

我是新来的火花,只是想检查一下我面临的问题 . 我的目标是读取嵌套的xml文件,将其展平并将其另存为csv文件 . 我写了代码 . 它在我的集群中的pyspark中工作正常 . 当我在pyspark中逐行编写代码时,我可以看到来自不同节点的执行程序被分配了工作进程 . 现在的问题是,当我运行与python脚本相同的代码时,不会分配来自不同节点的执行程序 . 工作进程在我运行脚本的节点上启动,并且不会并行化 . 因此,进行处理需要更长的时间 . 我在这篇文章中附上了警告的屏幕截图 .

还有人面对过它吗?谢谢你的期待 . 此外,我不拥有这个集群,但我正在为某人工作 . 所以我不知道有多少节点 .

enter image description here

1 回答

  • 0

    我确实让它运转了 . 我没有正确初始化配置 . 我已经在spark配置中将setmaster指定为local . 我刚删除了该属性标记,即使在运行脚本时,应用程序也开始在可用的执行程序中进行分发 .

相关问题