Apache-Spark作为日志存储-Java 学习之路

我有几个问题围绕使用apache-spark来存储我们的应用程序日志（是的，将日志存储在apache-spark中，而不是存储apache-spark创建的日志）

1）存储（并且当然是分析）apache-spark中的日志是产品的一个很好的用例吗？只是寻找“是的，取决于你的意思是好的” - 或“不，它不太适合经典日志存储/分析，使用ElasticSearch为此”

2）将新日志从我们的应用程序写入spark集群的最佳方法是什么？ https://spark.apache.org/docs/0.9.0/streaming-programming-guide.html提到"Data can be ingested from ... plain old TCP sockets"但是我找不到如何从TCP套接字打开/提取数据的指南 .

3）如果我们在应用程序中使用logback，那么定义将日志保存到spark集群的正确appender是什么？

我意识到这些问题是非常高级的，所以只是寻找指导，如果我在正确的轨道，也许一些文章的链接可以帮助我进一步理解 - 而不是详细的实施相当大的问题！

谢谢

1 回答

2
是Spark可以很好地用于日志挖掘 .
- 这取决于你的分析 - 如果你只进行查找和greps，那么ElasticSearch可能也适合，但是第二个你想做更复杂的事情然后Spark会更好 . Spark的优点在于它的灵活性 .
- 取决于您的分析以及何时需要进行分析 . 如果你想要一个实时仪表板，那么是尝试找到一种方法来使用SparkStreaming . 如果您只是每小时/每日更新，那么只需写入hdfs并在Cron中粘贴Spark作业 .
- 我推荐Apache Flume，以便您可以直接将日志写入HDFS http://flume.apache.org/
是的我会说你走在正确的轨道上 .
回复于 2024-04-25T09:32:01+08:00

Apache-Spark作为日志存储

1 回答

相关问题