大数据去哪里以及如何存储？-Java 学习之路

我正在努力掌握大数据，主要是如何管理大数据 .

我熟悉传统的数据管理和数据生命周期;例如 . ：

收集结构化数据（例如网络表格）
数据存储在数据库服务器上的RDBMS中的表中
数据已清理，然后ETL进入数据仓库
使用OLAP多维数据集和各种其他BI工具/技术分析数据

然而，在大数据的情况下，我对第2点和第3点的等效版本感到困惑，主要是因为我不确定每个大数据“解决方案”是否总是涉及使用NoSQL数据库来处理和存储非结构化数据，以及大数据等效于数据仓库的内容 .

从我所看到的情况来看，在某些情况下NoSQL并不总是被使用并且可以完全省略 - 这是真的吗？

对我来说，大数据生命周期就是这样的：

收集的数据（结构化/非结构化/半结构化）
数据存储在大数据平台上的NoSQL数据库中;例如HBase on MapR Hadoop服务器分发 .
大数据分析/数据挖掘工具可清理和分析数据

但我有一种感觉，情况并非总是如此，第3点可能完全是错误的 . 任何人都可以对此有所了解吗？

1 回答

1

当我们谈论大数据时，我们会在大多数情况下讨论大量数据，这些数据在很多情况下都是不断编写的 . 数据也可以有很多种 . 将大数据的典型数据源视为生产环境线中的机器，可生成温度，湿度等所有时间传感器数据 . 这不是您在DWH中可以找到的典型数据类型 .

如果您将所有这些数据转换为适合关系数据库，会发生什么？如果你经常使用ETL，你知道从源代码中提取，转换数据以适应模式然后存储它需要时间，这是瓶颈 . 创建架构太慢了 . 此外，这种解决方案主要是昂贵的，因为您需要昂贵的设备来运行DWH . 您不希望用传感器数据填充它 .

您需要在廉价硬件上快速写入 . 使用Big Data，您可以在分布式文件系统上首先存储无架构（通常称为非结构化数据） . 此文件系统将大量数据拆分为块（通常大约128 MB），并将它们分布在群集节点中 . 随着块被复制，节点也会崩溃 .

如果您来自传统的DWH世界，那么您已经习惯了能够很好地处理准备和结构化的数据的技术 . Hadoop和co很适合寻找诸如在干草堆中搜索针头之类的见解 . 您可以通过并行化数据处理和处理大量数据来获得洞察力 .

想象一下，您收集了太字节数据，并希望对其进行一些分析分析（例如聚类） . 如果你必须在一台机器上运行它，则需要数小时 . 大数据系统的关键是在无共享架构中并行执行 . 如果要提高性能，可以添加硬件以横向扩展 . 有了它，您可以使用大量数据加快搜索速度 .

查看现代大数据堆栈，您可以拥有数据存储 . 这可以是具有分布式文件系统的Hadoop，例如HDFS或类似的文件系统 . 然后，您将拥有一个资源管理器，用于管理文件系统上的访问 . 然后，在它上面，你有一个数据处理引擎，如Apache Spark，它协调存储层上的执行 .

再次在数据处理的核心引擎上，您可以使用应用程序和框架（例如机器学习API）来查找数据中的模式 . 您可以运行无监督学习算法来检测结构（例如聚类算法）或监督机器学习算法，以便为数据中的模式赋予一些含义并能够预测结果（例如线性回归或随机森林） .

对于那些对传统数据库系统有经验的人来说，这是我的大数据 .

回复于 2024-05-03T10:45:50+08:00

大数据去哪里以及如何存储？

1 回答

相关问题