在YARN上
-
Spark 1.6.2
-
Hadoop 2.7
-
Parquet(由Spark生成)在HDFS上,gz压缩
-
在数据节点上运行单个Spark工作程序
运行一个简单的Spark SQL查询,我可以在Spark web UI中看到它需要5个secondes来读取1个128MB的HDFS块并提取17MB,YARN容器在同一个数据节点上运行,那么为什么这么长呢?
SUCCESS NODE_LOCAL 1 / PAR-DATA01.local 2018/05/16 14:00:07 4 s 9 ms 54 ms 27 ms 0 ms 0 ms 16.3 MB 16.1 MB (hadoop) / 3067758 2 ms 2.5 KB / 75
我唯一怀疑的是gzip压缩,欢迎任何其他线索 .