Spark：从XML / Parquet / Sequence文件中读取数据-Java 学习之路

我是Spark的新手，我目前主要在cloudera HDFS集群上使用Hive＆Impala .

我有几十个XML文件，我用它来创建使用Hive的外部表 .

该表当前存储为Parquet文件 .

现在，我想使用Spark读取这些数据..我可以直接从表中读取数据吗？

或者我是否必须从原始数据中读取它？如果是这样，不同格式（XML，Sequence，Parquet）之间是否存在性能差异？

谢谢 .

更新：我们的hive集群目前适用于Spark引擎 . 但是，我正在谈论在Scala中编写实际的Spark代码，并让它读取Hive表/ XML /序列文件/ Parquet文件 .

Spark：从XML / Parquet / Sequence文件中读取数据