首页 文章

在Azure上的HDInsights群集上使用Data Lake或Blob

提问于
浏览
1

在Azure中创建HDInsights Hadoop集群时,有两个存储选项 . Azure Data Lake Store(ADLS)或Azure Blob存储 .

这两个选项之间的真正区别是什么?它们如何影响性能?

我发现这个页面https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-comparison-with-blob-storage但它不是非常具体,只使用像"ADLS is optimized for analytics"这样的非常通用的术语 .

这是否意味着它更适合存储HDInsights文件系统?如果ADLS确实更快,那么为什么不将它用于非分析数据呢?

3 回答

  • 0

    除了Ashok的回答:与Azure存储相比,ADLS目前仅在少数几个地区提供 . 因此,如果您需要特定区域的HDInsight帐户,则应确保您的存储位于同一区域 .

    ADLS相对于Azure存储的另一个好处是它在文件/文件夹级别的基于POSIX的安全模型,它使用AAD安全主体而不是共享访问密钥 .

    您可能不希望将ADLS用于非分析数据的原因主要是成本 . 由于一些额外的功能,它目前有点贵 .

  • 1

    根据此document,Azure存储帐户最多可容纳4.75 TB,但单个blob(或HDInsight透视图中的文件)最多只能达到195 GB . Azure Data Lake Store可以动态增长以容纳数万亿个文件,单个文件大于1 PB . 有关更多信息,请参阅Understanding blobsData Lake Store .

    另外,请查看Benefits of Azure StorageUse Data Lake Store以获取更多详细信息和比较 .

    希望这可以帮助 .

  • 2

    除了其他答案之外,不可能在使用Data Lake作为主存储的HDInsights集群上使用Spark Data Factory活动 . 此限制适用于ADFv1和v2,如下所示:https://docs.microsoft.com/en-us/azure/data-factory/v1/data-factory-sparkhttps://docs.microsoft.com/en-us/azure/data-factory/transform-data-using-spark

相关问题