首页 文章
  • 0 votes
     answers
     views

    Spark SQL Streaming问题

    我们正在尝试使用 Spark Streaming 和 Spark SQL 来实现一个用例,该用例允许我们针对某些数据运行用户定义的规则(请参阅下文,了解如何捕获和使用数据) . 我们的想法是使用SQL来指定规则并将结果作为警报返回给用户 . 基于每个传入的事件批处理执行查询似乎非常慢 . 如果有人能提出更好的方法来实现这个用例,我将不胜感激 . 另外,想知道Spark是否在驱动程序或工作程序上执行...
  • 1 votes
     answers
     views

    Spark 1.4 Mllib LDA topicDistributions()返回错误的文档数

    我有一个LDA模型,运行在12,054个文档的语料库大小上,词汇大小为9,681个单词和60个集群 . 我试图通过调用.topicDistributions()或.javaTopicDistributions()来获取文档上的主题分布 . 这两种方法都会在文档上返回主题分布的rdd . 因此,根据我的理解,行数应该是文档数量,列数应该是主题数量 . 但是,当我在调用topicDistributio...

热门问题