首页 文章

Azure Spark SQL与U-SQL

提问于
浏览
5

我有很多数据文件,最终会定期推送并存储在Azure Storage / Data Lake上 . 我想提供对此数据进行分析的能力,但后来我发现在Azure上有两种方法:

  • U-SQL / Azure数据湖查询(可视化???)

  • 在Azure和Zeppelin上使用Spark的Spark SQL

可以有人建议我何时使用这种方法中的哪一种?在我看来,两者都可以做类似的工作 .

1 回答

  • 12

    您可以将U-SQL视为Microsoft的Spark SQL版本,您可以在其中编写SQL Server样式的SQL并使用C#中的用户定义函数进行扩展 . 使用Spark时,您可以使用半MySQL MySQL样式编写SQL,并使用Scala或Python进行扩展 .

    如果您熟悉Scala或Python,那么选择HDInsight可能是最佳选择 . Spark附带了GraphX和MLLib,目前Data Lake Analytics中没有类似物 . 此外,如果您需要在Azure之外工作的东西,那么SparkSQL是您唯一的选择 .

    另一个需要考虑的重要方面是定价 . Data Lake Analytics仅在您的查询执行时花费金钱,但只要群集正在运行,HDInsight就会花钱 . 根据数据的大小和查询的复杂程度,Data Lake Analytics可以更便宜,因为在配置时您不需要付费 .

相关问题