在YARN上

  • Spark 1.6.2

  • Hadoop 2.7

  • Parquet(由Spark生成)在HDFS上,gz压缩

  • 在数据节点上运行单个Spark工作程序

运行一个简单的Spark SQL查询,我可以在Spark web UI中看到它需要5个secondes来读取1个128MB的HDFS块并提取17MB,YARN容器在同一个数据节点上运行,那么为什么这么长呢?

Spark web console

SUCCESS NODE_LOCAL  1 / PAR-DATA01.local    2018/05/16 14:00:07 4 s 9 ms    54 ms   27 ms   0 ms    0 ms    16.3 MB 16.1 MB (hadoop) / 3067758  2 ms    2.5 KB / 75

我唯一怀疑的是gzip压缩,欢迎任何其他线索 .