首页 文章

大数据去哪里以及如何存储?

提问于
浏览
1

我正在努力掌握大数据,主要是如何管理大数据 .

我熟悉传统的数据管理和数据生命周期;例如 . :

  • 收集结构化数据(例如网络表格)

  • 数据存储在数据库服务器上的RDBMS中的表中

  • 数据已清理,然后ETL进入数据仓库

  • 使用OLAP多维数据集和各种其他BI工具/技术分析数据

然而,在大数据的情况下,我对第2点和第3点的等效版本感到困惑,主要是因为我不确定每个大数据“解决方案”是否总是涉及使用NoSQL数据库来处理和存储非结构化数据,以及大数据等效于数据仓库的内容 .

从我所看到的情况来看,在某些情况下NoSQL并不总是被使用并且可以完全省略 - 这是真的吗?

对我来说,大数据生命周期就是这样的:

  • 收集的数据(结构化/非结构化/半结构化)

  • 数据存储在大数据平台上的NoSQL数据库中;例如HBase on MapR Hadoop服务器分发 .

  • 大数据分析/数据挖掘工具可清理和分析数据

但我有一种感觉,情况并非总是如此,第3点可能完全是错误的 . 任何人都可以对此有所了解吗?

1 回答

  • 1

    当我们谈论大数据时,我们会在大多数情况下讨论大量数据,这些数据在很多情况下都是不断编写的 . 数据也可以有很多种 . 将大数据的典型数据源视为 生产环境 线中的机器,可生成温度,湿度等所有时间传感器数据 . 这不是您在DWH中可以找到的典型数据类型 .

    如果您将所有这些数据转换为适合关系数据库,会发生什么?如果你经常使用ETL,你知道从源代码中提取,转换数据以适应模式然后存储它需要时间,这是瓶颈 . 创建架构太慢了 . 此外,这种解决方案主要是昂贵的,因为您需要昂贵的设备来运行DWH . 您不希望用传感器数据填充它 .

    您需要在廉价硬件上快速写入 . 使用Big Data,您可以在分布式文件系统上首先存储无架构(通常称为非结构化数据) . 此文件系统将大量数据拆分为块(通常大约128 MB),并将它们分布在群集节点中 . 随着块被复制,节点也会崩溃 .

    如果您来自传统的DWH世界,那么您已经习惯了能够很好地处理准备和结构化的数据的技术 . Hadoop和co很适合寻找诸如在干草堆中搜索针头之类的见解 . 您可以通过并行化数据处理和处理大量数据来获得洞察力 .

    想象一下,您收集了太字节数据,并希望对其进行一些分析分析(例如聚类) . 如果你必须在一台机器上运行它,则需要数小时 . 大数据系统的关键是在无共享架构中并行执行 . 如果要提高性能,可以添加硬件以横向扩展 . 有了它,您可以使用大量数据加快搜索速度 .

    查看现代大数据堆栈,您可以拥有数据存储 . 这可以是具有分布式文件系统的Hadoop,例如HDFS或类似的文件系统 . 然后,您将拥有一个资源管理器,用于管理文件系统上的访问 . 然后,在它上面,你有一个数据处理引擎,如Apache Spark,它协调存储层上的执行 .

    再次在数据处理的核心引擎上,您可以使用应用程序和框架(例如机器学习API)来查找数据中的模式 . 您可以运行无监督学习算法来检测结构(例如聚类算法)或监督机器学习算法,以便为数据中的模式赋予一些含义并能够预测结果(例如线性回归或随机森林) .

    对于那些对传统数据库系统有经验的人来说,这是我的大数据 .

相关问题