首页 文章

Apache-Spark作为日志存储

提问于
浏览
0

我有几个问题围绕使用apache-spark来存储我们的应用程序日志(是的,将日志存储在apache-spark中,而不是存储apache-spark创建的日志)

1)存储(并且当然是分析)apache-spark中的日志是产品的一个很好的用例吗?只是寻找“是的,取决于你的意思是好的” - 或“不,它不太适合经典日志存储/分析,使用ElasticSearch为此”

2)将新日志从我们的应用程序写入spark集群的最佳方法是什么? https://spark.apache.org/docs/0.9.0/streaming-programming-guide.html提到"Data can be ingested from ... plain old TCP sockets"但是我找不到如何从TCP套接字打开/提取数据的指南 .

3)如果我们在应用程序中使用logback,那么定义将日志保存到spark集群的正确appender是什么?

我意识到这些问题是非常高级的,所以只是寻找指导,如果我在正确的轨道,也许一些文章的链接可以帮助我进一步理解 - 而不是详细的实施相当大的问题!

谢谢

1 回答

  • 2

    是Spark可以很好地用于日志挖掘 .

    • 这取决于你的分析 - 如果你只进行查找和greps,那么ElasticSearch可能也适合,但是第二个你想做更复杂的事情然后Spark会更好 . Spark的优点在于它的灵活性 .

    • 取决于您的分析以及何时需要进行分析 . 如果你想要一个实时仪表板,那么是尝试找到一种方法来使用SparkStreaming . 如果您只是每小时/每日更新,那么只需写入hdfs并在Cron中粘贴Spark作业 .

    • 我推荐Apache Flume,以便您可以直接将日志写入HDFS http://flume.apache.org/

    是的我会说你走在正确的轨道上 .

相关问题