首页 文章

这种情况是一个大数据项目吗?

提问于
浏览
-3

我参与了一个有两个阶段的项目,我想知道这是一个大数据项目(我是这个领域的新手)

在第一阶段我有这种情况:

  • 我必须收集大量的数据

  • 我需要存储它们

  • 我需要构建一个向用户显示数据的Web应用程序

在第二阶段,我需要分析存储的数据并构建报告并对它们进行一些分析

关于数据量的一些例子;在一天内,我可能需要收集和存储约86.400.000记录

现在我正在考虑这种架构:

  • 为数据提供一些异步技术,如Active MQ和MQTT协议

  • 存储数据我正在考虑使用NoSQL DB(mongo,Hbase或其他)

现在这将解决我的第一阶段问题

但是第二阶段呢?

我正在考虑一些大数据SW(如hadoop或spark)和一些机器学习SW;所以我可以从数据库中检索数据,分析它们并以更好的方式构建或存储,以便构建好的报告并进行一些特定的分析

我想知道这是否是最好的方法

你会如何解决这种情况?我是以正确的方式吗?

谢谢

安杰洛

2 回答

  • 0

    正如siddhartha所回答的那样,您的项目是否可以被标记为bigdata项目,取决于项目的上下文和buiseness域/案例 .

    来到技术堆栈,您提到的每种技术都有特定的用途 . 例如,如果您有结构化数据,则可以使用任何具有查询支持的新的年龄库数据库 . NoSQL数据库有不同的风格(columner,基于文档,键值等),因此技术选择又取决于您拥有的数据类型和用例 . 我建议你在接听最终电话之前做一些POC和技术分析 .

  • 1

    大数据的定义因用户而异 . 对于谷歌100 TB可能是一个小数据,但对我来说这是大数据,因为可用硬件商品的差异 . Ex - > Google可以拥有50000个节点的集群,每个节点具有64 GB Ram,用于分析100 Tb数据,因此对于他们来说这不是大数据 . 但是我不能拥有50000节点的集群,所以对我来说它是大数据 .

    如果有商品硬件,你可以继续使用hadoop . 由于你没有提到你每天都在生成的文件大小,我无法确定你的情况 . 但是,由于像spark这样的新项目可以帮助您在更短的时间内处理数据,而且它还为您提供实时分析功能,因此hadoop始终是处理数据的理想选择 . 所以根据我的说法,如果你可以使用spark或hadoop更好,那么你可以使用你的数据 . 此外,由于您想使用nosql数据库,您可以使用hadoop提供的hbase来存储您的数据 .

    希望这能回答你的问题 .

相关问题