这种情况是一个大数据项目吗？-Java 学习之路

-3

我参与了一个有两个阶段的项目，我想知道这是一个大数据项目（我是这个领域的新手）

在第一阶段我有这种情况：

我必须收集大量的数据
我需要存储它们
我需要构建一个向用户显示数据的Web应用程序

在第二阶段，我需要分析存储的数据并构建报告并对它们进行一些分析

关于数据量的一些例子;在一天内，我可能需要收集和存储约86.400.000记录

现在我正在考虑这种架构：

为数据提供一些异步技术，如Active MQ和MQTT协议
存储数据我正在考虑使用NoSQL DB（mongo，Hbase或其他）

现在这将解决我的第一阶段问题

但是第二阶段呢？

我正在考虑一些大数据SW（如hadoop或spark）和一些机器学习SW;所以我可以从数据库中检索数据，分析它们并以更好的方式构建或存储，以便构建好的报告并进行一些特定的分析

我想知道这是否是最好的方法

你会如何解决这种情况？我是以正确的方式吗？

谢谢

安杰洛

2 回答

0

正如siddhartha所回答的那样，您的项目是否可以被标记为bigdata项目，取决于项目的上下文和buiseness域/案例 .

来到技术堆栈，您提到的每种技术都有特定的用途 . 例如，如果您有结构化数据，则可以使用任何具有查询支持的新的年龄库数据库 . NoSQL数据库有不同的风格（columner，基于文档，键值等），因此技术选择又取决于您拥有的数据类型和用例 . 我建议你在接听最终电话之前做一些POC和技术分析 .

回复于 2024-05-02T23:52:12+08:00
1

大数据的定义因用户而异 . 对于谷歌100 TB可能是一个小数据，但对我来说这是大数据，因为可用硬件商品的差异 . Ex - > Google可以拥有50000个节点的集群，每个节点具有64 GB Ram，用于分析100 Tb数据，因此对于他们来说这不是大数据 . 但是我不能拥有50000节点的集群，所以对我来说它是大数据 .

如果有商品硬件，你可以继续使用hadoop . 由于你没有提到你每天都在生成的文件大小，我无法确定你的情况 . 但是，由于像spark这样的新项目可以帮助您在更短的时间内处理数据，而且它还为您提供实时分析功能，因此hadoop始终是处理数据的理想选择 . 所以根据我的说法，如果你可以使用spark或hadoop更好，那么你可以使用你的数据 . 此外，由于您想使用nosql数据库，您可以使用hadoop提供的hbase来存储您的数据 .

希望这能回答你的问题 .

回复于 2024-05-02T23:52:12+08:00

这种情况是一个大数据项目吗？

2 回答

相关问题