了解Spark SQL的架构[关闭]-Java 学习之路

-1

我不确定我是否理解Spark SQL的工作原理 .

例如，我不清楚是否需要在群集上安装hadoop和hive . 从文档中看，您需要做的就是下载spark并将其安装在您要使用的所有计算机上（如果您希望连接到配置单元仓库，则使用hive选项进行编译） .

此外，如果不需要连接到已经存在的配置单元仓库，那么在我看来，加载数据的唯一方法是通过RDD，Parquet和JSON .

我的整体理解是否正确？

1 回答

1

Spark可以在独立模式（单节点没有hadoop），Mesos或Hadoop（Yarn）上运行 . 您可以在任何SchemaRDD上运行Spark SQL查询，也可以在由case类对象（scala）或python dictionaries或Row对象组成的RDD上运行 . Spark内置了访问Parquet和json的方法 . Datastax有一个开源spark-cassandra-connector，可以让你从cassandra中读取 . 您基本上可以读取任何格式，只要您知道如何将其解析为dictonaries / case类或Row对象的RDD，就可以在其上运行spark SQL .

回复于 2024-05-16T05:03:25+08:00