首页 文章

了解Spark SQL的架构[关闭]

提问于
浏览
-1

我不确定我是否理解Spark SQL的工作原理 .

例如,我不清楚是否需要在群集上安装hadoop和hive . 从文档中看,您需要做的就是下载spark并将其安装在您要使用的所有计算机上(如果您希望连接到配置单元仓库,则使用hive选项进行编译) .

此外,如果不需要连接到已经存在的配置单元仓库,那么在我看来,加载数据的唯一方法是通过RDD,Parquet和JSON .

我的整体理解是否正确?

1 回答

  • 1

    Spark可以在独立模式(单节点没有hadoop),Mesos或Hadoop(Yarn)上运行 . 您可以在任何SchemaRDD上运行Spark SQL查询,也可以在由case类对象(scala)或python dictionaries或Row对象组成的RDD上运行 . Spark内置了访问Parquet和json的方法 . Datastax有一个开源spark-cassandra-connector,可以让你从cassandra中读取 . 您基本上可以读取任何格式,只要您知道如何将其解析为dictonaries / case类或Row对象的RDD,就可以在其上运行spark SQL .

相关问题