我是Spark的新手,我目前主要在cloudera HDFS集群上使用Hive&Impala .

我有几十个XML文件,我用它来创建使用Hive的外部表 .

该表当前存储为Parquet文件 .

现在,我想使用Spark读取这些数据..我可以直接从表中读取数据吗?

或者我是否必须从原始数据中读取它?如果是这样,不同格式(XML,Sequence,Parquet)之间是否存在性能差异?

谢谢 .

更新:我们的hive集群目前适用于Spark引擎 . 但是,我正在谈论在Scala中编写实际的Spark代码,并让它读取Hive表/ XML /序列文件/ Parquet文件 .