Spark从HDFS读取镶木地板非常慢-Java 学习之路

在YARN上

Spark 1.6.2
Hadoop 2.7
Parquet（由Spark生成）在HDFS上，gz压缩
在数据节点上运行单个Spark工作程序

运行一个简单的Spark SQL查询，我可以在Spark web UI中看到它需要5个secondes来读取1个128MB的HDFS块并提取17MB，YARN容器在同一个数据节点上运行，那么为什么这么长呢？

Spark web console

SUCCESS NODE_LOCAL  1 / PAR-DATA01.local    2018/05/16 14:00:07 4 s 9 ms    54 ms   27 ms   0 ms    0 ms    16.3 MB 16.1 MB (hadoop) / 3067758  2 ms    2.5 KB / 75

我唯一怀疑的是gzip压缩，欢迎任何其他线索 .

Spark从HDFS读取镶木地板非常慢

相关问题