首页 文章

Azure Data Lake VS Azure HDInsight

提问于
浏览
9

我正在浏览Microsoft文档:

https://docs.microsoft.com/en-us/azure/data-lake-store/data-lake-store-overview

我是Azure Data lake和HDInsight的新手 . URL中有一条声明告诉我们

"Azure Data Lake Store can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs."

根据我最初的理解,Data lake store是一个可以存储任何类型数据的商店 . 我认为,HDInsight也有同样的事情 .

我的问题是Azure Data湖和Azure HDInsight有什么区别?如果HDInsight可以用于文件存储或任何类型的存储,那么为什么要使用Data Lake?如果有人可以详细说明这一点,那就太棒了 . 谢谢 .

5 回答

  • 0

    想想Data Lake最简单的方法就是想到这个 large container that has like a real lake with rivers coming into the river 你永远不知道河流来自哪里(或河流的哪个地方) . Azure Data Lake的引入使开发人员,数据科学家和分析人员可以轻松地存储大数据,以存储任何大小的数据 . It removes the complexities of ingesting and storing all your data while making it faster to get up and running with big data . Data Lake能够存储 mass different types of data (结构化数据,非结构化数据,日志文件,实时,图像等)并将它们混合在一起,以关联许多不同的数据类型 . 这里的关键是我们正在从传统方式转向现代工具(如Hadoop,Cassandra,NoSQL DB等) . Azure Data Lake包含三项服务:

    • Azure Data Lake Store,一个支持大数据分析的无限数据湖

    • Azure Data Lake Analytics,一种大规模并行的按需作业服务

    • Azure HDInsight ,完整托管的 Cloud Hadoop和Spark产品

    enter image description here

    Azure Data Lake Store就像基于 Cloud 的文件服务或文件系统,其大小几乎无限制 . 我们可以在该商店中的数据之上运行服务 . 因此,您可以使用Hadoop或Spark in an HDInsight cluster ,或者您可以使用Azure Data Lake分析服务,该服务是Azure Data Lake Store的补充 . 您可以使用的服务是运行有效查询存储在Azure Data Lake存储中的数据并生成输出结果的作业 .

  • 0

    Azure Data Lake Store就是一个数据存储 . HDInsight也可以在您启动的群集中执行此操作 . 但是,当您停止该群集时,数据也会消失 .

    客户通常使用Azure Data Lake Store或Azure存储来提供与用于处理数据的群集(计算)分开的永久存储 .

    家伙

  • 3

    HDInsight是分析服务,而Azure Data Lake Storage是存储服务 . 您最有可能需要两者都具有功能分析群集 .

    HDInsight提供集群,完全管理分析的开源软件包(Hadoop,Spark ......等),并将集群设置为使用Azure Data Lake Storage,它支持 Cloud 存储上的HDFS API(Hadoop FileSystem) .

    Azure Data Lake Storage Gen2是您应该开始考虑的,它将Azure存储和ADLS的优势合并到一个服务中 . - https://microsoft.sharepoint.com/sites/infopedia/media/channels/kurt-delbene-on-compete

    ADLS Gen 2文档 - https://docs.microsoft.com/en-us/azure/storage/data-lake-storage/introduction

  • 1

    Azure使用“分解的硬件方法”

    您可以将HDinsight关联或假设为Hadoop群集,Azure数据湖(ADL)作为HDFS . 但他们是分离的 .

    Hdinsight使用adl://访问ADL,而hdinsight从不将文件块存储在节点中(如Hadoop一样),而是存储服务的映射 .

    如果终止群集,则ADL存储将保留其中存储的文件 . 您可以使用其他服务或工具(如Azure数据块)直接访问存储,也可以在数据之上创建另一个hdinsight群集 .

    简而言之,

    Hdinsight是一种托管的hadoop服务,可提供计算支持

    ADL是一种托管存储服务,可提供大文件存储支持(您也可以选择使用Blob . 但Blob有一些限制(例如,不支持通过hdinsight群集存储到文件的文件)

  • 7

    Azure Data Lake Analytics在使用Azure Data Lake Store进行数据存储时提供较少的服务器计算,而在HDInsight中,我们需要根据处理要求为Compute Virtual Machine节点指定和设计 . 开发人员在Azure Data Lake Analytics中使用服务器较少的计算可能是有利的,因为Analytics Job的扩展需求是开箱即用的 .

相关问题